whylabs · naddeoa · Mar 10, 2024 · Mar 10, 2024 · Mar 10, 2024 · Mar 10, 2024
diff --git a/.bumpversion.cfg b/.bumpversion.cfg
@@ -1,5 +1,5 @@
 [bumpversion]
-current_version = 0.0.88
+current_version = 0.0.90
 tag = False
 parse = (?P<major>\d+)\.(?P<minor>\d+)\.(?P<patch>\d+)(\-(?P<release>[a-z]+)(?P<build>\d+))?
 serialize = 

diff --git a/langkit/core/workflow.py b/langkit/core/workflow.py
@@ -125,7 +125,8 @@ def init(self) -> None:
             targets = validator.get_target_metric_names()
             if not set(targets).issubset(metric_names):
                 raise ValueError(
-                    f"Validator {validator} has target metric names ({targets}) that are not in the list of metrics: {metric_names}"
+                    f"Validator {validator} has target metric names ({targets}) but this workflow is "
+                    "only generating metrics for  these: {metric_names}"
                 )
 
     def _condense_metric_results(self, metric_results: Dict[str, SingleMetricResult]) -> pd.DataFrame:

diff --git a/langkit/metrics/library.py b/langkit/metrics/library.py
@@ -55,7 +55,7 @@ def recommended(prompt: bool = True, response: bool = True) -> MetricCreator:
             - response.pii.*
             - response.stats.token_count
             - response.stats.char_count
-            - response.stats.reading_ease
+            - response.stats.flesch_reading_ease
             - response.sentiment.sentiment_score
             - response.toxicity.toxicity_score
             - response.similarity.refusal
@@ -73,7 +73,7 @@ def recommended(prompt: bool = True, response: bool = True) -> MetricCreator:
                 lib.response.pii,
                 lib.response.stats.token_count,
                 lib.response.stats.char_count,
-                lib.response.stats.reading_ease,
+                lib.response.stats.flesch_reading_ease,
                 lib.response.sentiment.sentiment_score,
                 lib.response.toxicity.toxicity_score,
                 lib.response.similarity.refusal,
@@ -130,7 +130,7 @@ def char_count() -> MetricCreator:
                 return prompt_char_count_metric
 
             @staticmethod
-            def reading_ease() -> MetricCreator:
+            def flesch_reading_ease() -> MetricCreator:
                 from langkit.metrics.text_statistics import prompt_reading_ease_metric
 
                 return prompt_reading_ease_metric
@@ -312,7 +312,7 @@ def char_count() -> MetricCreator:
                 return response_char_count_metric
 
             @staticmethod
-            def reading_ease() -> MetricCreator:
+            def flesch_reading_ease() -> MetricCreator:
                 from langkit.metrics.text_statistics import response_reading_ease_metric
 
                 return response_reading_ease_metric

diff --git a/langkit/metrics/toxicity.py b/langkit/metrics/toxicity.py
@@ -51,7 +51,7 @@ def udf(text: pd.DataFrame) -> SingleMetricResult:
         metrics = __toxicity(_pipeline, max_length, col)
         return SingleMetricResult(metrics=metrics)
 
-    return SingleMetric(name=f"{column_name}.toxicity", input_name=column_name, evaluate=udf, init=init)
+    return SingleMetric(name=f"{column_name}.toxicity.toxicity_score", input_name=column_name, evaluate=udf, init=init)
 
 
 prompt_toxicity_metric = partial(toxicity_metric, "prompt")

diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [tool.poetry]
 name = "langkit"
-version = "0.0.88"
+version = "0.0.90"
 description = "A language toolkit for monitoring LLM interactions"
 authors = ["WhyLabs.ai <[email protected]>"]
 homepage = "https://docs.whylabs.ai/docs/large-language-model-monitoring"

diff --git a/tests/langkit/metrics/test_library.py b/tests/langkit/metrics/test_library.py
@@ -32,7 +32,7 @@ def test_recommended():
         "response.stats.char_count",
         "response.stats.flesch_reading_ease",
         "response.sentiment.sentiment_score",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
         "response.similarity.refusal",
         "id",
     ]
diff --git a/tests/langkit/metrics/test_toxicity.py b/tests/langkit/metrics/test_toxicity.py
@@ -73,12 +73,12 @@ def test_prompt_toxicity_row_non_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] < 0.1
 
 
 def test_prompt_toxicity_df_non_toxic():
@@ -89,12 +89,12 @@ def test_prompt_toxicity_df_non_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] < 0.1
 
 
 def test_prompt_toxicity_row_toxic():
@@ -107,12 +107,12 @@ def test_prompt_toxicity_row_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
 
 
 def test_prompt_toxicity_df_toxic():
@@ -140,12 +140,12 @@ def test_prompt_toxicity_df_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
 
 
 def test_prompt_toxicity_df_mixed():
@@ -173,13 +173,13 @@ def test_prompt_toxicity_df_mixed():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
-    assert actual["distribution/min"]["prompt.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["prompt.toxicity.toxicity_score"] < 0.1
 
 
 def test_response_toxicity_row_non_toxic():
@@ -191,11 +191,11 @@ def test_response_toxicity_row_non_toxic():
     expected_columns = [
         "prompt",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] < 0.1
 
 
 def test_response_toxicity_df_non_toxic():
@@ -207,11 +207,11 @@ def test_response_toxicity_df_non_toxic():
     expected_columns = [
         "prompt",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] < 0.1
 
 
 def test_response_toxicity_row_toxic():
@@ -225,11 +225,11 @@ def test_response_toxicity_row_toxic():
     expected_columns = [
         "prompt",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
 
 
 def test_response_toxicity_df_toxic():
@@ -258,11 +258,11 @@ def test_response_toxicity_df_toxic():
     expected_columns = [
         "prompt",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
 
 
 def test_response_toxicity_df_mixed():
@@ -291,12 +291,12 @@ def test_response_toxicity_df_mixed():
     expected_columns = [
         "prompt",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
-    assert actual["distribution/min"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["response.toxicity.toxicity_score"] < 0.1
 
 
 def test_prompt_response_toxicity_row_non_toxic():
@@ -307,14 +307,14 @@ def test_prompt_response_toxicity_row_non_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] < 0.1
-    assert actual["distribution/max"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] < 0.1
 
 
 def test_prompt_response_toxicity_df_non_toxic():
@@ -325,14 +325,14 @@ def test_prompt_response_toxicity_df_non_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] < 0.1
-    assert actual["distribution/max"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] < 0.1
 
 
 def test_prompt_response_toxicity_row_toxic():
@@ -345,14 +345,14 @@ def test_prompt_response_toxicity_row_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
 
 
 def test_prompt_response_toxicity_df_toxic():
@@ -380,16 +380,16 @@ def test_prompt_response_toxicity_df_toxic():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
-    assert actual["distribution/min"]["prompt.toxicity"] > 0.7
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
-    assert actual["distribution/min"]["response.toxicity"] > 0.7
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["prompt.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["response.toxicity.toxicity_score"] > 0.7
 
 
 def test_prompt_response_toxicity_df_mixed():
@@ -417,13 +417,13 @@ def test_prompt_response_toxicity_df_mixed():
 
     expected_columns = [
         "prompt",
-        "prompt.toxicity",
+        "prompt.toxicity.toxicity_score",
         "response",
-        "response.toxicity",
+        "response.toxicity.toxicity_score",
     ]
 
     assert actual.index.tolist() == expected_columns
-    assert actual["distribution/max"]["prompt.toxicity"] > 0.7
-    assert actual["distribution/min"]["prompt.toxicity"] < 0.1
-    assert actual["distribution/max"]["response.toxicity"] > 0.7
-    assert actual["distribution/min"]["response.toxicity"] < 0.1
+    assert actual["distribution/max"]["prompt.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["prompt.toxicity.toxicity_score"] < 0.1
+    assert actual["distribution/max"]["response.toxicity.toxicity_score"] > 0.7
+    assert actual["distribution/min"]["response.toxicity.toxicity_score"] < 0.1