+ added basic scripts to generate runs for an experiment
[qpalma.git] / scripts / compile_dataset.py
index 9464c3b..cf79622 100644 (file)
@@ -149,7 +149,7 @@ def compile_d(gff_file,dna_flat_files,filtered_reads,remapped_reads,tmp_dir,data
       if instance_counter % 100 == 0:
          print 'processed %d examples' % instance_counter
 
-      if instance_counter == 5000:
+      if instance_counter == 20000:
          break
 
    print 'Full dataset has size %d' % len(Sequences)
@@ -174,8 +174,8 @@ def process_read(reReads,fRead,currentGene,dna_flat_files,test):
 
    chr            = fRead['chr']
    strand         = fRead['strand']
-   #quality        = fRead['prb']
-   quality        = fRead['cal_prb']
+   quality        = fRead['prb']
+   #quality        = fRead['cal_prb']
    #quality        = fRead['chastity']
    spos           = fRead['splitpos']
    currentReadSeq = fRead['seq']
@@ -320,19 +320,19 @@ def process_read(reReads,fRead,currentGene,dna_flat_files,test):
       #assert dna_fragment_2.replace('-','') == dna_annot_2, pdb.set_trace()
 
       if not dna_fragment_1.replace('-','') == dna_annot_1:
-         print 'genomic seq mismatch'
-         print 'orignal read:\t %s ' % originalReadSeq
-         print '1st/2nd read:\t %s %s' % (firstReadSeq,secondReadSeq)
-         print 'dna_fragment_1:\t %s' % dna_fragment_1
-         print 'dna_annot 1+2:\t %s %s' % (dna_annot_1,dna_annot_2)
+         #print 'genomic seq mismatch'
+         #print 'orignal read:\t %s ' % originalReadSeq
+         #print '1st/2nd read:\t %s %s' % (firstReadSeq,secondReadSeq)
+         #print 'dna_fragment_1:\t %s' % dna_fragment_1
+         #print 'dna_annot 1+2:\t %s %s' % (dna_annot_1,dna_annot_2)
          return nil
 
       if not dna_fragment_2.replace('-','') == dna_annot_2:
-         print 'genomic seq mismatch'
-         print 'orignal read:\t %s ' % originalReadSeq
-         print '1st/2nd read:\t %s %s' % (firstReadSeq,secondReadSeq)
-         print 'dna_fragment_2:\t %s' % dna_fragment_2
-         print 'dna_annot 1+2:\t %s %s' % (dna_annot_1,dna_annot_2)
+         #print 'genomic seq mismatch'
+         #print 'orignal read:\t %s ' % originalReadSeq
+         #print '1st/2nd read:\t %s %s' % (firstReadSeq,secondReadSeq)
+         #print 'dna_fragment_2:\t %s' % dna_fragment_2
+         #print 'dna_annot 1+2:\t %s %s' % (dna_annot_1,dna_annot_2)
          return nil
 
       #print 'successful'