+ cleaning up code base
[qpalma.git] / qpalma / sequence_utils.py
index 693d7df..9a8e983 100644 (file)
@@ -18,6 +18,8 @@ from numpy.matlib import inf
 from Genefinding import *
 from genome_utils import load_genomic
 
+extended_alphabet = ['-','a','c','g','t','n','[',']']
+alphabet          = ['-','a','c','g','t','n']
 
 def get_flatfile_size(filename):
    cmd =  'wc -c %s | cut -f1 -d \' \'' % filename
@@ -43,7 +45,7 @@ def reverse_complement(seq):
    """
 
    bpos = seq.find('[')
-   rc = lambda x: {'a':'t','c':'g','g':'c','t':'a'}[x]
+   rc = lambda x: {'a':'t','c':'g','g':'c','t':'a','n':'n'}[x]
 
    # check first whether seq contains no brackets at all
    if bpos == -1:
@@ -51,7 +53,7 @@ def reverse_complement(seq):
       ret_val.reverse()
       ret_val = "".join(ret_val)
    else:
-      brc = lambda x: {'a':'t','c':'g','g':'c','t':'a','[':'[',']':']'}[x]
+      brc = lambda x: {'a':'t','c':'g','g':'c','t':'a','n':'n','[':'[',']':']'}[x]
 
       # first_part is the part of the seq up to the first occurrence of a
       # bracket
@@ -220,7 +222,7 @@ def get_seq_and_scores(chr,strand,genomicSeq_start,genomicSeq_stop,dna_flat_file
       assert ag_tuple_pos == [p for p,e in enumerate(currentAcc) if e != -inf and p > 1], pdb.set_trace()
       assert gt_tuple_pos == [p for p,e in enumerate(currentDon) if e != -inf and p > 0], pdb.set_trace()
       assert len(currentAcc) == len(currentDon), pdb.set_trace()
-   else
+   else:
       for pos in ag_tuple_pos:
          if currentAcc[pos] == -inf:
             currentAcc[pos] = 0.01