github.com/wbrown/gpt_bpe@v0.0.0-20250709161131-1571a6e8ad2d/runetree_test.go

github.com/wbrown/gpt_bpe@v0.0.0-20250709161131-1571a6e8ad2d/runetree_test.go (about)

     1  package gpt_bpe
     2  
     3  import (
     4  	"fmt"
     5  	"io"
     6  	"regexp/syntax"
     7  	"strings"
     8  	"testing"
     9  )
    10  
    11  var sanitizeTable = map[string]string{
    12  	"â‚¬": "€",
    13  	"â€š": "‚",
    14  	"Æ’":  "ƒ",
    15  	"â€ž": "„",
    16  	"â€¦": "…",
    17  	"â€¡": "‡",
    18  	"Ë†":  "ˆ",
    19  	"â€°": "‰",
    20  	"â€¹": "‹",
    21  	"Å’":  "Œ",
    22  	"Å½":  "Ž",
    23  	"â€˜": "‘",
    24  	"â€™": "’",
    25  	"â€œ": "“",
    26  	"â€¢": "•",
    27  	"â€“": "–",
    28  	"â€”": "—",
    29  	"Ëœ":  "˜",
    30  	"â„¢": "™",
    31  	"Å¡":  "š",
    32  	"â€º": "›",
    33  	"Å“":  "œ",
    34  	"Å¾":  "ž",
    35  	"Å¸":  "Ÿ",
    36  	"Â¡":  "¡",
    37  	"Â¢":  "¢",
    38  	"Â£":  "£",
    39  	"Â¤":  "¤",
    40  	"Â¥":  "¥",
    41  	"Â¦":  "¦",
    42  	"Â§":  "§",
    43  	"Â¨":  "¨",
    44  	"Â©":  "©",
    45  	"Âª":  "ª",
    46  	"Â«":  "«",
    47  	"Â®":  "®",
    48  	"Â¯":  "¯",
    49  	"Â°":  "°",
    50  	"Â±":  "±",
    51  	"Â²":  "²",
    52  	"Â³":  "³",
    53  	"Â´":  "´",
    54  	"Âµ":  "µ",
    55  	"Â¶":  "¶",
    56  	"Â·":  "·",
    57  	"Â¸":  "¸",
    58  	"Â¹":  "¹",
    59  	"Âº":  "º",
    60  	"Â»":  "»",
    61  	"Â¼":  "¼",
    62  	"Â½":  "½",
    63  	"Â¾":  "¾",
    64  	"Â¿":  "¿",
    65  	"Ã€":  "À",
    66  	"Ã‚":  "Â",
    67  	"Ãƒ":  "Ã",
    68  	"Ã„":  "Ä",
    69  	"Ã…":  "Å",
    70  	"Ã†":  "Æ",
    71  	"Ã‡":  "Ç",
    72  	"Ãˆ":  "È",
    73  	"Ã‰":  "É",
    74  	"ÃŠ":  "Ê",
    75  	"Ã‹":  "Ë",
    76  	"ÃŒ":  "Ì",
    77  	"ÃŽ":  "Î",
    78  	"Ã‘":  "Ñ",
    79  	"Ã’":  "Ò",
    80  	"Ã“":  "Ó",
    81  	"Ã”":  "Ô",
    82  	"Ã•":  "Õ",
    83  	"Ã–":  "Ö",
    84  	"Ã—":  "×",
    85  	"Ã˜":  "Ø",
    86  	"Ã™":  "Ù",
    87  	"Ãš":  "Ú",
    88  	"Ã›":  "Û",
    89  	"Ãœ":  "Ü",
    90  	"Ãž":  "Þ",
    91  	"ÃŸ":  "ß",
    92  	"Ã¡":  "á",
    93  	"Ã¢":  "â",
    94  	"Ã£":  "ã",
    95  	"Ã¤":  "ä",
    96  	"Ã¥":  "å",
    97  	"Ã¦":  "æ",
    98  	"Ã§":  "ç",
    99  	"Ã¨":  "è",
   100  	"Ã©":  "é",
   101  	"Ãª":  "ê",
   102  	"Ã«":  "ë",
   103  	"Ã¬":  "ì",
   104  	"Ã®":  "î",
   105  	"Ã¯":  "ï",
   106  	"Ã°":  "ð",
   107  	"Ã±":  "ñ",
   108  	"Ã²":  "ò",
   109  	"Ã³":  "ó",
   110  	"Ã´":  "ô",
   111  	"Ãµ":  "õ",
   112  	"Ã¶":  "ö",
   113  	"Ã·":  "÷",
   114  	"Ã¸":  "ø",
   115  	"Ã¹":  "ù",
   116  	"Ãº":  "ú",
   117  	"Ã»":  "û",
   118  	"Ã¼":  "ü",
   119  	"Ã½":  "ý",
   120  	"Ã¾":  "þ",
   121  	"Ã¿":  "ÿ",
   122  }
   123  
   124  var encodingSanitzer = map[string]string{}
   125  
   126  func TestRuneNode_String(t *testing.T) {
   127  	nerdstashV2Encoder = *CacheLoadEncoder("nerdstash_v2-tokenizer")
   128  	print(nerdstashV2Encoder.SpecialsTree.String())
   129  }
   130  
   131  func TestRuneMatch(t *testing.T) {
   132  	s := "// TypeScript Version: 2.9"
   133  	rr := io.RuneReader(strings.NewReader(s))
   134  	nerdstashV2Encoder = *CacheLoadEncoder("nerdstash_v2-tokenizer")
   135  	nextWord := nerdstashV2Encoder.WordSplitter(rr)
   136  	for {
   137  		word := nextWord()
   138  		if word == nil {
   139  			break
   140  		}
   141  		t.Log(*word)
   142  	}
   143  }
   144  
   145  func TestRuneReplacement(t *testing.T) {
   146  	s := "Ã¹ TypeScriptÃ–"
   147  	rr := io.RuneReader(strings.NewReader(s))
   148  	nerdstashV2Encoder = *CacheLoadEncoder("nerdstash_v2-tokenizer")
   149  	nerdstashV2Encoder.SpecialsTree.InsertReplacementsIntoRuneTree(
   150  		sanitizeTable,
   151  	)
   152  	print(nerdstashV2Encoder.SpecialsTree.String())
   153  	nextWord := nerdstashV2Encoder.WordSplitter(rr)
   154  	for {
   155  		word := nextWord()
   156  		if word == nil {
   157  			break
   158  		}
   159  		t.Log(*word)
   160  	}
   161  }
   162  
   163  func TestRegex(t *testing.T) {
   164  	// This test is to check if the regex is able to split the text correctly
   165  	testStr := "This is a test.  This is another test. filler filler. fill'll fill't 1 12 123 1234 12345 123456 1234567\n The quick brown turtle did a backflip and won a marathon."
   166  	llama3Encoder = *CacheLoadEncoder("llama3-tokenizer")
   167  	regexStringLLama3 := llama3Encoder.pattern.String()
   168  	fmt.Printf("regexString: %v\n", regexStringLLama3)
   169  	regexASTLLama3, err := syntax.Parse(regexStringLLama3, syntax.Perl)
   170  	if err != nil {
   171  		t.Error(err)
   172  	}
   173  	regexASTLLama3.Simplify()
   174  
   175  	regexTree := CreateRegexTree(regexASTLLama3)
   176  	//regexTree.PrintTree()
   177  	runesTest := []rune(testStr)
   178  	pathMap := regexTree.GeneratePathMap()
   179  	returnedval := regexTree.EvaluateRegexTree(runesTest, pathMap)
   180  	fmt.Printf("returnedval: %v\n", returnedval)
   181  }