+ minor changes in the paths
[qpalma.git] / tools / run_specific_scripts / transcriptome_analysis / compile_dataset.py
index 3e4f093..7cc028c 100644 (file)
@@ -56,7 +56,9 @@ class DatasetGenerator:
 
       self.dataset = []
 
-      self.read_size = Conf.read_size
+      self.read_size = 38
+      #self.prb_offset = 50
+      self.prb_offset = 64
 
       self.half_window_size = 1500
 
@@ -70,6 +72,7 @@ class DatasetGenerator:
       assert not os.path.exists(dataset_fn), 'The data_file already exists!'
       assert not os.path.exists(dataset_keys_fn), 'The data_keys file already exists!'
 
+      #pdb.set_trace()
       # saving new dataset and single keys as well
       cPickle.dump(self.dataset,open(dataset_fn,'w+'),protocol=2)
       cPickle.dump(self.dataset.keys(),open(dataset_keys_fn,'w+'),protocol=2)
@@ -161,7 +164,8 @@ class DatasetGenerator:
 
          # In order to save some space we use a signed char to store the
          # qualities. Each quality element can range as follows: -128 <= elem <= 127
-         prb = array.array('b',map(lambda x: ord(x)-64,slist[5]))
+         
+         prb = array.array('b',map(lambda x: ord(x)-self.prb_offset,slist[5]))
 
          # add instance to set
          currentSeqInfo = (id,chromo,strand,genomicSeq_start,genomicSeq_stop)