remove TXNAME, GENEID, equal and compatible of read class with extended TSS/TES

SuiYue-2308 · SuiYue-2308 · commit f47d54a64cd8 · 2025-06-16T09:28:46.000+08:00
diff --git a/R/bambu-extendAnnotations-utilityExtend.R b/R/bambu-extendAnnotations-utilityExtend.R
@@ -10,7 +10,7 @@ isore.extendAnnotations <- function(combinedTranscripts, annotationGrangesList,
   combinedTranscripts <- filterTranscripts(combinedTranscripts, min.sampleNumber)
   if (nrow(combinedTranscripts) > 0) {
     group_var <- c("intronStarts","intronEnds","chr","strand","start","end",
-                   "confidenceType","readCount", "maxTxScore", "maxTxScore.noFit")
+                   "confidenceType","readCount", "maxTxScore", "maxTxScore.noFit", "firstExonGroup", "lastExonGroup")
     rowDataTibble <- select(combinedTranscripts,all_of(group_var))
     annotationSeqLevels <- seqlevels(annotationGrangesList)
     rowDataSplicedTibble <- filter(rowDataTibble,
@@ -343,6 +343,16 @@ addNewSplicedReadClasses <- function(combinedTranscriptRanges,
   # annotate with compatible gene id,
   rowDataFilteredSpliced$GENEID[equalQhits[!duplicated(equalQhits)]] <-
     mcols(annotationGrangesList[equalSubHits[!duplicated(equalQhits)]])$GENEID
+  
+  # remove TXNAME, GENEID, equal and compatible for 
+  idx_startEnd <- which(rowDataFilteredSpliced$firstExonGroup == 0 |
+                          rowDataFilteredSpliced$lastExonGroup == 0)
+  if (length(idx_startEnd) > 0) {
+    classificationTable$compatible[idx_startEnd] <- ""
+    classificationTable$equal[idx_startEnd] <- ""
+    rowDataFilteredSpliced$GENEID[idx_startEnd] <- NA
+    rowDataFilteredSpliced$TXNAME[idx_startEnd] <- NA
+  }
   # annotate as identical, using intron matches
   unlistedIntrons <- unlist(intronsByReadClass, use.names = TRUE)
   partitioning <- PartitioningByEnd(cumsum(elementNROWS(intronsByReadClass)),
@@ -355,7 +365,8 @@ addNewSplicedReadClasses <- function(combinedTranscriptRanges,
     updateWIntronMatches(unlistedIntrons, unlistedIntronsAnnotations,
                          partitioning, classificationTable, annotationGrangesList,
                          rowDataFilteredSpliced, exonsByReadClass, min.exonDistance,
-                         min.primarySecondaryDist, min.primarySecondaryDistStartEnd)             
+                         min.primarySecondaryDist, min.primarySecondaryDistStartEnd)
+  classificationTable <- updateWStartEnd(rowDataFilteredSpliced, classificationTable)
   rowDataFilteredSpliced$readClassType <-
     apply(classificationTable, 1, function(x){paste(x[x!=""], collapse = ":")})
   rowDataFilteredSpliced$novelTranscript = TRUE
@@ -420,6 +431,19 @@ updateWIntronMatches <- function(unlistedIntrons, unlistedIntronsAnnotations,
 }
 
 
+#' update classificationTable by start and end
+#' @importFrom GenomicRanges match
+#' @noRd
+updateWStartEnd <- function(rowDataSplicedTibble, classificationTable) {
+  idx <- which(rowDataSplicedTibble$firstExonGroup == 0 | 
+                 rowDataSplicedTibble$lastExonGroup == 0)
+  if (length(idx) > 0) {
+    classificationTable$compatible[idx] <- ""
+    classificationTable$equal[idx] <- ""
+  }
+  return(classificationTable)
+}
+
 
 #' assign gene id by maximum match
 #' @importFrom dplyr as_tibble %>% group_by summarise filter ungroup