+ added small parts to docu
authorFabio <fabio@congo.fml.local>
Fri, 5 Sep 2008 07:22:36 +0000 (09:22 +0200)
committerFabio <fabio@congo.fml.local>
Fri, 5 Sep 2008 07:22:36 +0000 (09:22 +0200)
doc/qpalma.tex
scripts/qpalma_main.py

index f338fb8..53ce4f2 100644 (file)
 \maketitle
 %
 %
-\section{Intro}
-%
 %
+\section{Intro}
+
 \QP is an alignment tool targeted to align spliced reads produced by ``Next
 Generation'' sequencing platforms such as $Illumina Genome Analyzer$, $454$ or
 $SOLid$. We refer to the whole pipeline as the \QP pipeline and \QP
 respectively.
 
-
-
 Basically \QP assumes that you have the following data:
 \begin{itemize}
 \item The reads you want to align,
@@ -45,11 +43,10 @@ The project results directory (\emph{result\_dir}) contains then the subdirector
 
 %
 %
-\section{Pipeline}
-%
 %
-The full pipline constist of n steps
-Usually:
+\section{Pipeline}
+
+The full pipline constist of $n$ steps:
 
 \begin{enumerate}
 \item Find alignment seeds using a fast suffix array method (vmatch) for
@@ -65,9 +62,9 @@ the quality of the alignments via filtering.
 
 %
 %
-\section{Usage}
-%
 %
+\section{Usage}
+
 A typical run consists of 
 \begin{enumerate}
 \item Set your parameters (read size, number of mismatches, etc.) in the
@@ -87,7 +84,9 @@ check\_dataset\_consistency.py script.
 
 Performs sanity checking of the configurations file(s). Initializes needed
 directories.
-
+%
+%
+%
 \section{Training}
 
 QPalma needs some training examples
@@ -96,11 +95,40 @@ For the training you need:
 \begin{itemize}
 \item Training examples i.e. correct alignments (you can artificially generate those see \ref)
 \item Splice site predictions
-\item Flat file of the genomic sequence
-\item VMatch 
+\item Flat files of the genomic sequences you want to align to
 \end{itemize}
 
+A training example is definded as a $4$-tuple, with elements:
+\begin{enumerate}
+\item A sequence information tuple
+\item the read itself
+\item the quality tuple
+\item the alignment information
+\end{enumerate}
+
+A prediction example is defined as a $3$-tuple, with elements:
+\begin{enumerate}
+\item A sequence information tuple
+\item the read itself
+\item the quality tuple
+\end{enumerate}
+
+The sequence information tuple itself consists of
+\begin{enumerate}
+\item The read id
+\item Chromosome/Contig id
+\item Strand
+\item Start of the genomic region we want to align to
+\item Stop of the genomic region
+\end{enumerate}
+
 
+
+            currentSeqInfo 
+
+%
+%
+%
 \section{Data Standards}
 
 
@@ -119,6 +147,9 @@ We address the first question as follows:
 the score sits at the g's of the splice sites.
     
 
+%
+%
+%
 \section{Format Specifications}
 
 The format of the file containing the mapped short reads is as follows.  Each
index 7af70dd..cf07c55 100644 (file)
@@ -39,7 +39,9 @@ class SpliceSiteException:
 
 
 def getData(training_set,exampleKey,run):
-   currentSeqInfo,currentExons,original_est,currentQualities = training_set[exampleKey]
+   """ This function...  """
+
+   currentSeqInfo,original_est,currentQualities,currentExons = training_set[exampleKey]
    id,chr,strand,up_cut,down_cut = currentSeqInfo
 
    est = original_est