Start reintegrating the Oracle

gbenson · gbenson · commit 4d178cc8f8b7 · 2024-06-04T09:28:43.000+01:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -23,8 +23,10 @@ classifiers = [
     "Topic :: Text Processing :: Markup :: HTML",
 ]
 dependencies = [
+    "numpy",
     "python-magic",       # XXX review
     "tokenizers",
+    "transformers",
     "unidecode",          # XXX review
 ]
 
@@ -42,12 +44,10 @@ dev = [
     "pillow",
     "pytest",
     "pytest-cov",
-    "transformers",
 ]
 train = [
     "datasets",
     "pillow",
-    "transformers",
 ]
 
 [project.scripts]
diff --git a/runner.py b/runner.py
@@ -0,0 +1,53 @@
+import sys
+import warnings
+
+from itertools import chain
+
+from dom_tokenizers.internal import json
+from dom_tokenizers.pre_tokenizers.shared_oracle import SharedOracle
+
+DEFAULT_TESTCASES = [
+    "overflow",
+    "uniqueid",
+    "uniqueId",
+    "uniqueID",
+    "pagewrap",
+    "pageWrap",
+    "autocompletetype",
+    "autocompleteType",
+    "backfill",
+    "Inauspicious",
+    "Llanfairpwllgwyngyllgogerychwyrndrobwllllantysiliogogogoch",
+
+    "1655885421832",  # first token is 4 chars
+    "8eb5e30dac7d493298287704a5f578c7",
+    "next/static/css/99762953f4d03581",
+    "org/TR/xhtml1/DTD/xhtml1",
+    "KFOmCnqEu92Fr1Mu4mxK",
+    "electronically8eb5e30dac7",  # median chars/token = 1.0 (mean=2.7),
+    "electronically8eb5e30dac",   # median chars/token = 1.5 (mean=3.0)
+    "electronically8eb5e30da",    # median chars/token = 2.0 (mean=3.3)
+]
+
+
+def main():
+    warnings.filterwarnings("ignore", message=r".*resume_download.*")
+
+    oracle = SharedOracle()
+    if len(sys.argv) < 2:
+        lines = DEFAULT_TESTCASES
+    else:
+        lines = chain.from_iterable(
+            (json.loads(line)["text"]
+             for line in open(filename).readlines())
+            for filename in sys.argv[1:])
+
+    for line in lines:
+        print("input:", line)
+        result = oracle.split_if_trivial(line, log_unhandled=False)
+        if result is not None:
+            print(f"\x1B[32m{result}\x1B[0m\n")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/src/dom_tokenizers/pre_tokenizers/oracle.py b/src/dom_tokenizers/pre_tokenizers/oracle.py
@@ -0,0 +1,141 @@
+import re
+
+from typing import Optional, Callable
+
+import numpy as np
+
+from ..internal import jsonl
+from ..internal.transformers import AutoTokenizer
+
+_IntOrIntList = int | list[int]
+_StrOrStrList = str | list[str]
+
+
+class Oracle:
+    def __init__(self, *args, **kwargs):
+        self._tok = AutoTokenizer.from_pretrained(*args, **kwargs)
+        self._tok.model_max_length = 1 << 31
+        self.cls_token_id = self._tok.cls_token_id
+        self.sep_token_id = self._tok.sep_token_id
+        self.unk_token_id = self._tok.unk_token_id
+        self.max_token_len = max(
+            len(token) for token in self._tok.vocab
+        )
+        self.max_try_split_len = min(self.max_token_len * 5, 100)
+        self._log = jsonl.Writer(basename="oracle", with_timestamp=True)
+
+    def close(self):
+        self._log.close()
+
+    @property
+    def normalize_str(self) -> Callable[[str], str]:
+        """Normalize the given string.
+        """
+        return self._tok.backend_tokenizer.normalizer.normalize_str
+
+    def encode(self, *args, **kwargs) -> list[int]:
+        """Convert the given string to a list of integer token IDs.
+        """
+        token_ids = self._tok.encode(*args, **kwargs)
+        assert token_ids[0] == self.cls_token_id
+        assert token_ids[-1] == self.sep_token_id
+        return token_ids[1:-1]
+
+    IDsToTokensType = Callable[[_IntOrIntList], _StrOrStrList]
+
+    @property
+    def convert_ids_to_tokens(self, *args, **kwargs) -> IDsToTokensType:
+        """Convert the given list of token IDs to a list of tokens.
+        """
+        return self._tok.convert_ids_to_tokens
+
+    def tokenize(self, *args, **kwargs) -> list[str]:
+        """Convert the given string into a list of tokens.
+        """
+        return self.convert_ids_to_tokens(self.encode(*args, **kwargs))
+
+    @property
+    def decode(self) -> Callable[[_IntOrIntList], str]:
+        """Convert the given list of token IDs to a string.
+        """
+        return self._tok.decode
+
+    # For quick checks, see TextSplitter.BASE64_RE for the real deal
+    _LOOSE_BASE64_RE = re.compile(r"^[A-Za-z0-9+/]+={0,2}$")
+
+    def split_if_trivial(
+            self,
+            text: str,
+            log_unhandled: bool = True,  # XXX
+    ) -> Optional[list[str]]:
+        """Split a string into a list of tokens XXX IF!
+
+        Like `tokenize()` but it only returns if XXX.  Otherwise None is
+        returned.
+        """
+        if len(text) > self.max_try_split_len:
+            return None
+
+        # Fast path for text that's in the oracle's vocabulary.
+        if len(text) <= self.max_token_len and (
+                (text in self._tok.vocab
+                 or text.lower() in self._tok.vocab)
+                and text.isalnum()):
+            return [text]
+
+        # Limit ourselves to base64-ish input, for now at least.
+        if not self._LOOSE_BASE64_RE.match(text):
+            raise NotImplementedError(text)
+
+        token_ids = self.encode(text)
+        if not token_ids or self.unk_token_id in token_ids:
+            return None
+
+        tokens = self.convert_ids_to_tokens(token_ids)
+        word_pieces = [token.lstrip("#") for token in tokens]
+        token_lengths = [len(token) for token in word_pieces]
+
+        # If the tokens are mostly 2+ characters long and the
+        # input text splits on whitespace in the same places as
+        # the decoded token ID sequence then call this a match.
+        # Subtracting the standard deviation prevents situations
+        # where one long token skews the median away from a load
+        # of 1-2 character tokens, e.g. "electronically8eb5e30da"
+        # tokenizes to ["electronically", "8", "eb", "5", "e",
+        # "30", "da"] with bert-base-uncased, so a median token
+        # length of 2 characters/token and a mean of 3.3, but
+        # the standard deviation of 4.4 indicates at least one
+        # token is very far from the mean.
+        median_length = np.median(token_lengths)
+        length_stddev = np.std(token_lengths)
+        if median_length - length_stddev > 1:
+            result = text.split()
+            want = [token.lower() for token in result]
+            if self.decode(token_ids).split() == want:
+                return result
+
+        print(f"tokens: {tokens}"[:80])
+
+        first_token_id = token_ids[0]
+        first_token = self.convert_ids_to_tokens(first_token_id)
+        assert "#" not in first_token
+        print(f"first_token: {first_token!r} ({first_token_id})")
+
+        chars_per_token = len(text) / len(token_ids)
+
+        #mean = sum(token_lengths) / len(token_ids)
+        print("chars_per_token:", chars_per_token)
+        #print("or ------> mean:", mean)
+        print("         median:", median_length)
+        print("        std.dev:", length_stddev)
+        print()
+
+        # XXX now what?
+        if log_unhandled:
+            self._log.write(
+                text=text, token_ids=token_ids,
+                tokens=tokens,
+                decoded=self.decode(token_ids),
+                chars_per_token=chars_per_token,
+            )
+        return None
diff --git a/src/dom_tokenizers/pre_tokenizers/shared_oracle.py b/src/dom_tokenizers/pre_tokenizers/shared_oracle.py
@@ -0,0 +1,18 @@
+import atexit
+
+from .oracle import Oracle
+
+
+class SharedOracle(Oracle):
+    _shared_borg_state = {}
+
+    def __new__(cls, *args, **kwargs):
+        obj = super().__new__(cls)
+        obj.__dict__ = cls._shared_borg_state
+        return obj
+
+    def __init__(self, model="bert-base-uncased", *args, **kwargs):
+        if hasattr(self, "_tok"):
+            return
+        super().__init__(model, *args, **kwargs)
+        atexit.register(self.close)
diff --git a/src/dom_tokenizers/pre_tokenizers/splitter.py b/src/dom_tokenizers/pre_tokenizers/splitter.py
@@ -4,14 +4,16 @@
 from base64 import binascii, b64decode
 from collections import defaultdict
 from collections.abc import Iterable
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from urllib.parse import unquote
 
 import magic
 
 from unidecode import unidecode
 
 from ..internal import json
+from .oracle import Oracle
+from .shared_oracle import SharedOracle
 from .sniffer import sniff_bytes
 
 logger = logging.getLogger(__name__)
@@ -44,6 +46,7 @@ class FalseBase64Error(RuntimeError):
 class TextSplitter:
     base64_token: str = "[BASE64]"
     long_token: str = "[LONG]"
+    oracle: Oracle = field(default_factory=SharedOracle)
 
     @property
     def special_tokens(self) -> Iterable[str]:
@@ -435,20 +438,20 @@ def _sub_urlencoded(self, splits, cursor):
 
     def _split_base64(self, encoded):
         try:
-            encoded = encoded.encode("ascii")
+            _encoded = encoded.encode("ascii")
         except UnicodeEncodeError:
             return None
         try:
-            data = b64decode(encoded, validate=True)
+            data = b64decode(_encoded, validate=True)
         except binascii.Error:
             return None
         try:
             text = data.decode("utf-8")
         except UnicodeDecodeError:
-            return self._split_base64_binary(data)
-        return self._split_base64_utf8(text)
+            return self._split_base64_binary(data, encoded)
+        return self._split_base64_utf8(text, encoded)
 
-    def _split_base64_utf8(self, text):
+    def _split_base64_utf8(self, text, encoded):
         match = self.XML_HDR_RE.match(text)
         if match is not None:
             if match.group(1) == "svg":
@@ -459,12 +462,16 @@ def _split_base64_utf8(self, text):
             return [self.base64_token, "json"]
         except json.JSONDecodeError:
             pass
+        if self.oracle.first_is_better(encoded, text):
+            return None  # encoded is better
         return [self.base64_token, "text"]
 
-    def _split_base64_binary(self, data):
+    def _split_base64_binary(self, data, encoded):
         filetype = sniff_bytes(data)
         if not filetype:
-            return None
+            if self.oracle.is_texty(encoded):
+                return None
+            return [self.base64_token, "data"]
         return [self.base64_token, filetype.name.lower()]
 
     # XXX junk?
diff --git a/tests/test_oracle.py b/tests/test_oracle.py
diff --git a/tests/test_splitter.py b/tests/test_splitter.py

Original file line number	Diff line number	Diff line change
`@@ -23,8 +23,10 @@ classifiers = [`
`23`	`23`	`"Topic :: Text Processing :: Markup :: HTML",`
`24`	`24`	`]`
`25`	`25`	`dependencies = [`
	`26`	`+ "numpy",`
`26`	`27`	`"python-magic", # XXX review`
`27`	`28`	`"tokenizers",`
	`29`	`+ "transformers",`
`28`	`30`	`"unidecode", # XXX review`
`29`	`31`	`]`
`30`	`32`
`@@ -42,12 +44,10 @@ dev = [`
`42`	`44`	`"pillow",`
`43`	`45`	`"pytest",`
`44`	`46`	`"pytest-cov",`
`45`		`- "transformers",`
`46`	`47`	`]`
`47`	`48`	`train = [`
`48`	`49`	`"datasets",`
`49`	`50`	`"pillow",`
`50`		`- "transformers",`
`51`	`51`	`]`
`52`	`52`
`53`	`53`	`[project.scripts]`