Merge pull request #501 from uhh-lt/improve-code-search

bigabig · web-flow · commit c38fbd2c0a64 · 2025-02-11T14:32:27.000+01:00
Improve code search
diff --git a/backend/src/app/core/analysis/search_statistics/search_statistics.py b/backend/src/app/core/analysis/search_statistics/search_statistics.py
@@ -6,7 +6,6 @@
 from app.core.data.crud.project_metadata import crud_project_meta
 from app.core.data.dto.search_stats import KeywordStat, SpanEntityStat, TagStat
 from app.core.data.orm.annotation_document import AnnotationDocumentORM
-from app.core.data.orm.code import CodeORM
 from app.core.data.orm.document_tag import (
     DocumentTagORM,
     SourceDocumentDocumentTagLinkTable,
@@ -141,10 +140,9 @@ def compute_code_statistics(
             )
             .join(SpanTextORM.span_annotations)
             .join(SpanAnnotationORM.annotation_document)
-            .join(SpanAnnotationORM.code)
             .group_by(SpanTextORM.id)
             .filter(
-                CodeORM.id == code_id,
+                SpanAnnotationORM.code_id == code_id,
                 AnnotationDocumentORM.source_document_id.in_(list(sdoc_ids)),
             )
             .order_by(count.desc())
@@ -169,7 +167,7 @@ def compute_code_statistics(
             .join(SpanAnnotationORM.code)
             .group_by(SpanTextORM.id)
             .filter(
-                CodeORM.id == code_id,
+                SpanAnnotationORM.code_id == code_id,
                 SpanTextORM.id.in_(span_text_ids),
             )
             .order_by(func.array_position(span_text_ids, SpanTextORM.id))
diff --git a/backend/src/app/core/analysis/timeline_analysis/timeline_analysis_columns.py b/backend/src/app/core/analysis/timeline_analysis/timeline_analysis_columns.py
@@ -2,13 +2,12 @@
 from sqlalchemy.dialects.postgresql import ARRAY, array, array_agg
 
 from app.core.data.orm.annotation_document import AnnotationDocumentORM
-from app.core.data.orm.code import CodeORM
 from app.core.data.orm.document_tag import DocumentTagORM
+from app.core.data.orm.sentence_annotation import SentenceAnnotationORM
 from app.core.data.orm.source_document import SourceDocumentORM
 from app.core.data.orm.span_annotation import SpanAnnotationORM
 from app.core.data.orm.span_text import SpanTextORM
-from app.core.data.orm.user import UserORM
-from app.core.db.sql_utils import aggregate_ids
+from app.core.db.sql_utils import aggregate_ids, aggregate_two_ids
 from app.core.search.column_info import AbstractColumns
 from app.core.search.filtering_operators import FilterOperator, FilterValueType
 from app.core.search.search_builder import SearchBuilder
@@ -100,57 +99,72 @@ def add_subquery_filter_statements(self, query_builder: SearchBuilder):
                 )
             case TimelineAnalysisColumns.CODE_ID_LIST:
                 query_builder._add_subquery_column(
-                    aggregate_ids(
-                        CodeORM.id, label=TimelineAnalysisColumns.CODE_ID_LIST.value
+                    aggregate_two_ids(
+                        SpanAnnotationORM.code_id,
+                        SentenceAnnotationORM.code_id,
+                        label=TimelineAnalysisColumns.CODE_ID_LIST.value,
                     )
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
+                    isouter=True,
+                )
+                query_builder._join_subquery(
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SentenceAnnotationORM,
+                    SentenceAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
+
             case TimelineAnalysisColumns.USER_ID_LIST:
                 query_builder._add_subquery_column(
                     aggregate_ids(
-                        UserORM.id, TimelineAnalysisColumns.USER_ID_LIST.value
+                        AnnotationDocumentORM.user_id,
+                        TimelineAnalysisColumns.USER_ID_LIST.value,
                     )
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
-                    isouter=True,
-                )
-                query_builder._join_subquery(
-                    AnnotationDocumentORM.user,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
             case TimelineAnalysisColumns.SPAN_ANNOTATIONS:
                 query_builder._add_subquery_column(
                     cast(
                         array_agg(
                             func.distinct(
-                                array([cast(CodeORM.id, String), SpanTextORM.text])
+                                array(
+                                    [
+                                        cast(SpanAnnotationORM.code_id, String),
+                                        SpanTextORM.text,
+                                    ]
+                                )
                             ),
                         ),
                         ARRAY(String, dimensions=2),
                     ).label(TimelineAnalysisColumns.SPAN_ANNOTATIONS.value)
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
-                    isouter=True,
-                )
-                query_builder._join_subquery(
-                    AnnotationDocumentORM.span_annotations,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.span_text,
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SpanTextORM,
+                    SpanTextORM.id == SpanAnnotationORM.span_text_id,
                     isouter=True,
                 )
 
diff --git a/backend/src/app/core/analysis/word_frequency_analysis/word_frequency_columns.py b/backend/src/app/core/analysis/word_frequency_analysis/word_frequency_columns.py
@@ -2,14 +2,13 @@
 from sqlalchemy.dialects.postgresql import ARRAY, array, array_agg
 
 from app.core.data.orm.annotation_document import AnnotationDocumentORM
-from app.core.data.orm.code import CodeORM
 from app.core.data.orm.document_tag import DocumentTagORM
+from app.core.data.orm.sentence_annotation import SentenceAnnotationORM
 from app.core.data.orm.source_document import SourceDocumentORM
 from app.core.data.orm.span_annotation import SpanAnnotationORM
 from app.core.data.orm.span_text import SpanTextORM
-from app.core.data.orm.user import UserORM
 from app.core.data.orm.word_frequency import WordFrequencyORM
-from app.core.db.sql_utils import aggregate_ids
+from app.core.db.sql_utils import aggregate_ids, aggregate_two_ids
 from app.core.search.column_info import AbstractColumns
 from app.core.search.filtering_operators import FilterOperator, FilterValueType
 from app.core.search.search_builder import SearchBuilder
@@ -156,55 +155,72 @@ def add_subquery_filter_statements(self, query_builder: SearchBuilder):
                 )
             case WordFrequencyColumns.CODE_ID_LIST:
                 query_builder._add_subquery_column(
-                    aggregate_ids(
-                        CodeORM.id, label=WordFrequencyColumns.CODE_ID_LIST.value
+                    aggregate_two_ids(
+                        SpanAnnotationORM.code_id,
+                        SentenceAnnotationORM.code_id,
+                        label=WordFrequencyColumns.CODE_ID_LIST.value,
                     )
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
-            case WordFrequencyColumns.USER_ID_LIST:
-                query_builder._add_subquery_column(
-                    aggregate_ids(UserORM.id, WordFrequencyColumns.USER_ID_LIST.value)
-                )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
+                    SentenceAnnotationORM,
+                    SentenceAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
+
+            case WordFrequencyColumns.USER_ID_LIST:
+                query_builder._add_subquery_column(
+                    aggregate_ids(
+                        AnnotationDocumentORM.user_id,
+                        WordFrequencyColumns.USER_ID_LIST.value,
+                    )
+                )
                 query_builder._join_subquery(
-                    AnnotationDocumentORM.user,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
             case WordFrequencyColumns.SPAN_ANNOTATIONS:
                 query_builder._add_subquery_column(
                     cast(
                         array_agg(
                             func.distinct(
-                                array([cast(CodeORM.id, String), SpanTextORM.text])
+                                array(
+                                    [
+                                        cast(SpanAnnotationORM.code_id, String),
+                                        SpanTextORM.text,
+                                    ]
+                                )
                             ),
                         ),
                         ARRAY(String, dimensions=2),
                     ).label(WordFrequencyColumns.SPAN_ANNOTATIONS.value)
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
-                    isouter=True,
-                )
-                query_builder._join_subquery(
-                    AnnotationDocumentORM.span_annotations,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.span_text,
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SpanTextORM,
+                    SpanTextORM.id == SpanAnnotationORM.span_text_id,
                     isouter=True,
                 )
 
diff --git a/backend/src/app/core/db/sql_utils.py b/backend/src/app/core/db/sql_utils.py
@@ -9,3 +9,16 @@ def aggregate_ids(column: InstrumentedAttribute, label: str):
         None,
         type_=ARRAY(Integer),
     ).label(label)
+
+
+def aggregate_two_ids(
+    column1: InstrumentedAttribute, column2: InstrumentedAttribute, label: str
+):
+    return func.array_remove(
+        func.array_cat(
+            array_agg(func.distinct(column1), type_=ARRAY(Integer)),
+            array_agg(func.distinct(column2), type_=ARRAY(Integer)),
+        ),
+        None,
+        type_=ARRAY(Integer),
+    ).label(label)
diff --git a/backend/src/app/core/search/bbox_anno_search/bbox_anno_search_columns.py b/backend/src/app/core/search/bbox_anno_search/bbox_anno_search_columns.py
@@ -81,8 +81,15 @@ def add_subquery_filter_statements(self, query_builder: SearchBuilder):
                         label=BBoxColumns.DOCUMENT_TAG_ID_LIST.value,
                     )
                 )
-                query_builder._join_subquery(BBoxAnnotationORM.annotation_document)
-                query_builder._join_subquery(AnnotationDocumentORM.source_document)
+                query_builder._join_subquery(
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.id
+                    == BBoxAnnotationORM.annotation_document_id,
+                )
+                query_builder._join_subquery(
+                    SourceDocumentORM,
+                    SourceDocumentORM.id == AnnotationDocumentORM.source_document_id,
+                )
                 query_builder._join_subquery(
                     SourceDocumentORM.document_tags, isouter=True
                 )
diff --git a/backend/src/app/core/search/sdoc_search/sdoc_search_columns.py b/backend/src/app/core/search/sdoc_search/sdoc_search_columns.py
@@ -2,13 +2,15 @@
 from sqlalchemy.dialects.postgresql import ARRAY, array, array_agg
 
 from app.core.data.orm.annotation_document import AnnotationDocumentORM
-from app.core.data.orm.code import CodeORM
 from app.core.data.orm.document_tag import DocumentTagORM
+from app.core.data.orm.sentence_annotation import SentenceAnnotationORM
 from app.core.data.orm.source_document import SourceDocumentORM
 from app.core.data.orm.span_annotation import SpanAnnotationORM
 from app.core.data.orm.span_text import SpanTextORM
-from app.core.data.orm.user import UserORM
-from app.core.db.sql_utils import aggregate_ids
+from app.core.db.sql_utils import (
+    aggregate_ids,
+    aggregate_two_ids,
+)
 from app.core.search.column_info import AbstractColumns
 from app.core.search.filtering_operators import FilterOperator, FilterValueType
 from app.core.search.search_builder import SearchBuilder
@@ -111,53 +113,71 @@ def add_subquery_filter_statements(self, query_builder: SearchBuilder):
                 )
             case SdocColumns.CODE_ID_LIST:
                 query_builder._add_subquery_column(
-                    aggregate_ids(CodeORM.id, label=SdocColumns.CODE_ID_LIST.value)
+                    aggregate_two_ids(
+                        SpanAnnotationORM.code_id,
+                        SentenceAnnotationORM.code_id,
+                        label=SdocColumns.CODE_ID_LIST.value,
+                    )
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
-            case SdocColumns.USER_ID_LIST:
-                query_builder._add_subquery_column(
-                    aggregate_ids(UserORM.id, SdocColumns.USER_ID_LIST.value)
-                )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
+                    SentenceAnnotationORM,
+                    SentenceAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
+
+            case SdocColumns.USER_ID_LIST:
+                query_builder._add_subquery_column(
+                    aggregate_ids(
+                        AnnotationDocumentORM.user_id, SdocColumns.USER_ID_LIST.value
+                    )
+                )
                 query_builder._join_subquery(
-                    AnnotationDocumentORM.user,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
             case SdocColumns.SPAN_ANNOTATIONS:
                 query_builder._add_subquery_column(
                     cast(
                         array_agg(
                             func.distinct(
-                                array([cast(CodeORM.id, String), SpanTextORM.text])
+                                array(
+                                    [
+                                        cast(SpanAnnotationORM.code_id, String),
+                                        SpanTextORM.text,
+                                    ]
+                                )
                             ),
                         ),
                         ARRAY(String, dimensions=2),
                     ).label(SdocColumns.SPAN_ANNOTATIONS.value)
                 )
                 query_builder._join_subquery(
-                    SourceDocumentORM.annotation_documents,
-                    isouter=True,
-                )
-                query_builder._join_subquery(
-                    AnnotationDocumentORM.span_annotations,
+                    AnnotationDocumentORM,
+                    AnnotationDocumentORM.source_document_id == SourceDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.span_text,
+                    SpanAnnotationORM,
+                    SpanAnnotationORM.annotation_document_id
+                    == AnnotationDocumentORM.id,
                     isouter=True,
                 )
                 query_builder._join_subquery(
-                    SpanAnnotationORM.code,
+                    SpanTextORM,
+                    SpanTextORM.id == SpanAnnotationORM.span_text_id,
                     isouter=True,
                 )
 
diff --git a/backend/src/app/core/search/sent_anno_search/sent_anno_search_columns.py b/backend/src/app/core/search/sent_anno_search/sent_anno_search_columns.py
diff --git a/backend/src/app/core/search/span_anno_search/span_anno_search_columns.py b/backend/src/app/core/search/span_anno_search/span_anno_search_columns.py

Original file line number	Diff line number	Diff line change
`@@ -81,8 +81,15 @@ def add_subquery_filter_statements(self, query_builder: SearchBuilder):`
`81`	`81`	`label=BBoxColumns.DOCUMENT_TAG_ID_LIST.value,`
`82`	`82`	`)`
`83`	`83`	`)`
`84`		`- query_builder._join_subquery(BBoxAnnotationORM.annotation_document)`
`85`		`- query_builder._join_subquery(AnnotationDocumentORM.source_document)`
	`84`	`+ query_builder._join_subquery(`
	`85`	`+ AnnotationDocumentORM,`
	`86`	`+ AnnotationDocumentORM.id`
	`87`	`+ == BBoxAnnotationORM.annotation_document_id,`
	`88`	`+ )`
	`89`	`+ query_builder._join_subquery(`
	`90`	`+ SourceDocumentORM,`
	`91`	`+ SourceDocumentORM.id == AnnotationDocumentORM.source_document_id,`
	`92`	`+ )`
`86`	`93`	`query_builder._join_subquery(`
`87`	`94`	`SourceDocumentORM.document_tags, isouter=True`
`88`	`95`	`)`