+ update makefiles to fetch automatically valid Python includes and libs
[qpalma.git] / doc / qpalma-manual.tex
index b4d9585..1fd7255 100644 (file)
@@ -251,7 +251,6 @@ key = value
 \end{center}
 and ``\#'' for lines containing comments.
 
-
 \subsection{Read format and internal representation}
 
 The read input files for \QP contain the read sequences with their quality as
@@ -263,7 +262,7 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 \item unique read id
 \item chromosome/contig id
 \item position of match in chromosome/contig (0-based, relative to positive strand)
-\item strand 
+\item strand [D/P or +/-]
 \item read sequence (in strand specific direction)
 \item read quality (in strand specific direction)
 \end{enumerate}
@@ -271,6 +270,37 @@ corresponds to one short read. Each line has six tab-separated entries, namely:
 Strand specific direction means that \QP assumes that the reads are already in
 their true orientation and the qualities as well.
 
+
+\subsection{Training file format}
+
+The read input files for \QP contain the read sequences with their quality as
+well as some information from the first mapping / seed region finding. The
+format of the file containing the mapped short reads is as follows.  Each line
+corresponds to one short read. Each line has six tab-separated entries, namely:
+
+\begin{enumerate}
+\item unique read id
+\item chromosome/contig id
+\item strand [D/P or +/-]
+\item beginning of sequence fragment
+\item end of sequence fragment
+\item read sequence (in strand specific direction) with alignment information (see below)
+\item read quality (in strand specific direction)
+\item beginning of $1^{st}$ exon
+\item end of $1^{st}$ exon
+\item beginning of $2^{nd}$ exon
+\item end of $2^{nd}$ exon
+\end{enumerate}
+
+Strand specific direction means that \QP assumes that the reads are already in
+their true orientation and the qualities as well.
+\\ \noindent
+Alignment information means that an alignment of a read to a genomic sequence A
+mismatch is encoded as $[AG]$ if $A$ is on the sequence and $G$ on the read
+side.  A gap is denoted by $[-X]$ resp. $[X-]$ denotinge a gap on the sequence
+resp. read side with $X \in {A,C,G,T,N}$.
+
+
 \subsection{Splice Scores}
 
 As mentioned before the splice site scores where generated using a tool