+ update makefiles to fetch automatically valid Python includes and libs
[qpalma.git] / doc / qpalma-manual.tex
index 89c6e32..1fd7255 100644 (file)
@@ -67,8 +67,8 @@ For training \QP you need one of the following optimization toolkits:
 \item Install the Pythongrid and the Genefinding tool packages
 \item Update your PYTHONPATH variable to point to the above packages
 \item Unpack the QPalma tarball via
-\item[$\rightarrow$] tar -xzvf QPalma-1.0.tar.gz
-\item Enter the QPalma-1.0 directory and type:
+\item[$\rightarrow$] tar -xzvf QPalma-0.9.tar.gz
+\item Enter the QPalma-0.9 directory and type:
 \item[$\rightarrow$] python setup.py build
 \end{enumerate}
 \noindent
@@ -169,7 +169,7 @@ the splice site predictions:
 \item \qparam{allowed\_fragments} - A list of the form ``[1,2,4]'' describing the valid file name numbers. See description below.
 \item \qparam{half\_window\_size} - Given an alignment seed position for a
 given read we cut out the area [1500-seed\_pos,seed\_pos+1500].
-\item \qparam{output\_format} - The output format can be either blat, ShoRe or
+\item \qparam{output\_format} - The output format can be either blat-like, ShoRe or
 mGene.
 \item \qparam{prb\_offset} - We expect the quality values to be saved as ascii
 strings so the quality is calulated via ord(qchar)-prb\_offset ($ord(\cdot)$
@@ -251,7 +251,6 @@ key = value
 \end{center}
 and ``\#'' for lines containing comments.
 
-
 \subsection{Read format and internal representation}
 
 The read input files for \QP contain the read sequences with their quality as
@@ -263,7 +262,7 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 \item unique read id
 \item chromosome/contig id
 \item position of match in chromosome/contig (0-based, relative to positive strand)
-\item strand 
+\item strand [D/P or +/-]
 \item read sequence (in strand specific direction)
 \item read quality (in strand specific direction)
 \end{enumerate}
@@ -271,6 +270,37 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 Strand specific direction means that \QP assumes that the reads are already in
 their true orientation and the qualities as well.
 
+
+\subsection{Training file format}
+
+The read input files for \QP contain the read sequences with their quality as
+well as some information from the first mapping / seed region finding. The
+format of the file containing the mapped short reads is as follows.  Each line
+corresponds to one short read. Each line has six tab-separated entries, namely:
+
+\begin{enumerate}
+\item unique read id
+\item chromosome/contig id
+\item strand [D/P or +/-]
+\item beginning of sequence fragment
+\item end of sequence fragment
+\item read sequence (in strand specific direction) with alignment information (see below)
+\item read quality (in strand specific direction)
+\item beginning of $1^{st}$ exon
+\item end of $1^{st}$ exon
+\item beginning of $2^{nd}$ exon
+\item end of $2^{nd}$ exon
+\end{enumerate}
+
+Strand specific direction means that \QP assumes that the reads are already in
+their true orientation and the qualities as well.
+\\ \noindent
+Alignment information means that an alignment of a read to a genomic sequence A
+mismatch is encoded as $[AG]$ if $A$ is on the sequence and $G$ on the read
+side.  A gap is denoted by $[-X]$ resp. $[X-]$ denotinge a gap on the sequence
+resp. read side with $X \in {A,C,G,T,N}$.
+
+
 \subsection{Splice Scores}
 
 As mentioned before the splice site scores where generated using a tool
@@ -301,6 +331,31 @@ We supply a script ``spliceScoresConverter.py'' for conversion of ascii to
 binary files. You can use this script as a template to make your own scoring
 information files.
 
+
+\subsection{Alignment result file}
+
+The result file for the blat-like output format consists of lines with the following columns:
+
+\begin{itemize}
+\item id - the unique read id of the input file
+\item chromosome/contig number
+\item strand
+\item start position of alignment in target
+\item qStart
+\item qEnd
+\item tStart
+\item tEnd
+\item number of exons
+\item qExonSizes
+\item qStarts
+\item qEnds
+\item tExonSizes
+\item tStarts
+\item tEnds
+\item number of matches in alignment
+\item number of gaps in alignment
+\end{itemize}
+
 \section{Remarks}
 
 The \QP project is licensed under the GPL. \\ \noindent