Skip to content

Latest commit

 

History

History
40 lines (30 loc) · 3.39 KB

tools.md

File metadata and controls

40 lines (30 loc) · 3.39 KB

Terark核心工具集

返回首页

terark 核心工具集

terark 核心工具集下载,在该下载列表中,核心工具集的名字是

  • terark-fsa_all-Linux-x86_64-g++-VERSION-bmi2-0.tgz : 能在较旧的机器上使用
  • terark-fsa_all-Linux-x86_64-g++-VERSION-bmi2-1.tgz : 只能在 intel-haswell 或更新的机器上使用

请根据自己的机器,和gcc版本,下载相应的版本。

Terark 核心工具集package解压后的目录结构:
root = pkg/terark-fsa_all-Linux-x86_64-g++-VERSION-bmi2-X

目录 说明
root/bin 核心命令行工具
root/lib 动态库
root/include 暂时用不上
root/samples
root/samples/bin 有一些示例和性能测试工具
root/samples/src 示例代码

核心命令行工具

为了便于编译和各平台统一,即使在 Linux/Mac 中,这些命令行工具也包含 .exe 后缀名。

名称 功能描述
nlt_build.exe Terark 嵌套Trie树创建(针对 Key),压缩后的文件可以通过 Terark 的专用 API 加载,并进行搜索
terark-zip-rocksdb 的索引(key)使用了该算法
该算法实践了 Terark 提出的 CO-Index (Compressed Ordered Index) 概念
zbs_build.exe Terark 数据库全局压缩(针对 Value ),压缩后的文件可以通过 Terark 的专用 API 加载,并按记录ID随机提取每条记录。terark-zip-rocksdb 的 value 压缩使用了该算法
该算法实践了 Terark 提出的 PA-Zip(Point Accessible Zip) 概念
zbs_unzip.exe 全部解压(或定点提取)由 zbs_build.exe 压缩的数据,也可用作 benchmark
fplcat.exe 将多个文件打包在一起,以便使用 zbs_build.exe 进行压缩,打包出来的文件传递给 zbs_build.exe 时,需要指定 -B 参数
adfa_build.exe 从输入的 Key 集合创建 ADFA(Acyclic DFA: 无环DFA),输入文本文件,每行一个 Key,
生成的 DFA 可以进行 Key 匹配(全匹配、前缀匹配),也可以通过特殊的方式实现 Map 功能
ac_build.exe 从文本形式的 Pattern 集合创建 AC 自动机,创建出来的 AC 自动机文件可以通过过 Terark 的专用 API 加载,并调用各种匹配函数
输入的 Pattern 文件中,每行一个 Pattern,每个 Pattern 作为精确字符串匹配,单线程匹配性能可达每秒数百MB甚至上GB
regex_build.exe 从正则表达式集合创建多正则自动机,创建出来的多正则自动机文件可以通过过 Terark 的专用 API 加载,并调用各种匹配函数
因为是多正则匹配,功能比 AC 自动机要强得多,但匹配性能比 AC 自动机要低一些
pinyin_build.exe 创建“根据拼音对汉字短语纠错”的自动机,demo 见 nark.cc
生成的自动机可以通过 Terark 的专用 API 加载,并执行搜索和纠错

其他命令行工具使用说明,可参见各命令的 usage help,详细说明我们会逐渐在该文档中完善。