Skip to content

Commit

Permalink
remove python 3.7 test, python 3.7 not available due to onnxruntime e…
Browse files Browse the repository at this point in the history
…rror
  • Loading branch information
lovemefan committed Sep 9, 2023
1 parent 25df9c3 commit 62d251f
Show file tree
Hide file tree
Showing 2 changed files with 32 additions and 21 deletions.
2 changes: 1 addition & 1 deletion .github/workflows/python-package.yml
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,7 @@ jobs:
fail-fast: false
matrix:
os: [ubuntu-latest, windows-latest, macos-latest]
python-version: ["3.7", "3.8", "3.9", "3.10", "3.11"]
python-version: ["3.8", "3.9", "3.10", "3.11"]

steps:
- uses: actions/checkout@v3
Expand Down
51 changes: 31 additions & 20 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,8 @@
<h2 align="center">Paraformer online python</h2>
<br/>

[![versions](https://img.shields.io/badge/python-3.8|3.9|3.10|3.11-blue)](https://github.com/lovemefan/paraformer-online-python)

[English readme](README-EN.md)

Paraformer是达摩院语音团队提出的一种高效的非自回归端到端语音识别框架,多个公开数据集上取得SOTA效果,缺点是该模型没有标点符号。
Expand All @@ -15,12 +17,12 @@ Paraformer是达摩院语音团队提出的一种高效的非自回归端到端

## 目前的进度
* [2023年8月10日]
* [x] vad模型onnx推理
* [x] vad模型流式和非流式onnx推理
* [x] 标点模型onnx推理
* [x] 流式asr onnx推理
* [x] 非流式asr onnx推理
* [x] 说话人识别 onnx推理
* [ ] 热词功能
* [x] 热词功能 (神经网络热词)
* [ ] itn逆文本正则化规则
* [ ] 语言模型(可能有必要)
* [ ] 纠错模型 (可能有必要)
Expand All @@ -32,27 +34,36 @@ Paraformer是达摩院语音团队提出的一种高效的非自回归端到端
## CER
测试时间:2023.8.29 数据来源:https://github.com/SpeechColab/Leaderboard

| 测试集 | 领域 | paraformer | bilibili | 思必驰 | 阿里 | 百度 | 讯飞 | 微软 | 腾讯 | 依图 |
| :---------------------------------- | ---------------- | --- | -------- | ------ | ----- | ------ | ----- | ----- | ----- | ---- |
| 直播带货 李佳琪薇娅 (770条, 0.9H) | 电商、美妆 | 6.28 | 6.45⬆️ | 10.04⬆️ | 4.33⬇️ | 16.69⬇️ | 9.10⬇️ | 5.29⬇️ | 6.56⬆️ | 7.33 |
| 新闻联播 (5069条, 9H) | 时政 | 0.6 | 0.57⬇️ | 0.98⬇️ | 0.32⬇️ | 1.56 | 0.81⬇️ | 0.25⬇️ | 1.02⬇️ | 0.76 |
| 访谈 鲁豫有约 (2993条, 3H) | 工作、说话 | 3.57 | 2.81⬇️ | 3.3⬆️ | 2.29⬇️ | 5.86 | 3.39⬇️ | 2.74⬇️ | 3.51⬆️ | 2.94 |
| 场馆演讲罗振宇跨年 (1311条, 2.7H) | 社会、人文、商业 | 1.98 | 1.57⬇️ | 1.72⬇️ | 1.17⬇️ | 3.23 | 2.18⬆️ | 1.16⬆️ | 1.75⬆️ | 1.49 |
| 在线教育 李永乐 (3148条, 4.4H) | 科普 | 2.61 | 1.44⬇️ | 2.2⬆️ | 1.0⬇️ | 6.90 | 2.03⬇️ | 1.31⬇️ | 1.78⬇️ | 1.81 |
| 播客 创业内幕 (2251条, 4.2H) | 创业、产品、投资 | 4.72 | 3.22⬇️ | 4.24⬇️ | 2.43⬇️ | 7.28⬇️ | 3.82⬇️ | 3.61⬇️ | 3.78⬇️ | 3.7 |
| 线下培训 老罗语录 (884条,1.3H) | 段子、做人 | 4.64 | 3.81⬆️ | 6.46⬆️ | 3.30⬇️ | 14.13⬇️ | 5.66⬇️ | 3.98⬇️ | 5.50⬇️ | 4.76 |
| 直播 王者荣耀 (1561条, 1.6H) | 游戏 | 6.69 | 5.69⬇️ | 8.14⬆️ | 4.01⬇️ | 10.32⬇️ | 8.31⬆️ | 5.48⬇️ | 6.14⬆️ | 6.92 |
| 电视节目 天下足球 (1683条, 2.7H) | 足球 | 1.29 | 0.91⬇️ | 1.54⬇️ | 0.61⬇️ | 5.38 | 1.64⬇️ | 0.88⬇️ | 2.68⬇️ | 0.83 |
| 播客故事FM (3466条, 4.5H) | 人生故事、见闻 | 3.50 | 3.22⬇️ | 3.82⬆️ | 2.22⬇️ | 5.62⬇️ | 3.72⬇️ | 3.28⬇️ | 3.65⬇️ | 3.67 |
| 罗翔 法考(1053条, 4H) | 法律 法考 | 2.02 | 1.81⬇️ | 2.86⬇️ | 0.94⬇️ | 5.55 | 2.90⬇️ | 1.19⬇️ | 2.02⬇️ | 1.65 |
| 张雪峰 在线教育考研(1170条, 3.5H) | 考研 高校报考 | 3.43 | 2.05⬇️ | 3.2⬇️ | 1.38⬇️ | 9.34 | 3.15⬇️ | 2.01⬇️ | 2.71⬆️ | 2.61 |
| 谷阿莫 短视频 影剪(1321条, 2.5H) | 美食、烹饪 | 3.92 | 3.01⬇️ | 4.02⬇️ | 1.94⬇️ | 7.65 | 3.95⬇️ | 4.22⬇️ | 2.94⬇️ | 2.81 |
| 琼斯爱生活 美食&烹饪(856条, 2H) | 美食、烹饪 | 4.71 | 3.61⬇️ | 6.29⬇️ | 2.53⬇️ | 13.17 | 4.85⬇️ | 3.07⬇️ | 4.56⬇️ | 3.99 |
| 单田芳 评书白眉大侠(1168条, 2.5H) | 江湖、武侠 | 5.1 | 4.64⬇️ | 9.22⬇️ | 2.5⬇️ | 15.42 | 9.51⬇️ | 5.47⬇️ | 5.89⬆️ | 5.45 |

| 测试集 | 领域 | paraformer |paraformer热词版(不加热词)| bilibili | 思必驰 | 阿里 | 百度 | 讯飞 | 微软 | 腾讯 | 依图 |
| :---------------------------------- | ---------------- | ---------- |----- | -------- | ------ | ----- | ------ | ----- | ----- | ----- | ---- |
| 直播带货 李佳琪薇娅 (770条, 0.9H) | 电商、美妆 | 6.28⬇️ | 6.3 | 6.45⬆️ | 10.04⬆️ | 4.33⬇️ | 16.69⬇️ | 9.10⬇️ | 5.29⬇️ | 6.56⬆️ | 7.33 |
| 新闻联播 (5069条, 9H) | 时政 | 0.6⬆️ | 0.62 | 0.57⬇️ | 0.98⬇️ | 0.32⬇️ | 1.56 | 0.81⬇️ | 0.25⬇️ | 1.02⬇️ | 0.76 |
| 访谈 鲁豫有约 (2993条, 3H) | 工作、说话 | 3.57⬇️| 3.51 | 2.81⬇️ | 3.3⬆️ | 2.29⬇️ | 5.86 | 3.39⬇️ | 2.74⬇️ | 3.51⬆️ | 2.94 |
| 场馆演讲罗振宇跨年 (1311条, 2.7H) | 社会、人文、商业 | 1.98| 1.83 | 1.57⬇️ | 1.72⬇️ | 1.17⬇️ | 3.23 | 2.18⬆️ | 1.16⬆️ | 1.75⬆️ | 1.49 |
| 在线教育 李永乐 (3148条, 4.4H) | 科普 | 2.61| 2.50 | 1.44⬇️ | 2.2⬆️ | 1.0⬇️ | 6.90 | 2.03⬇️ | 1.31⬇️ | 1.78⬇️ | 1.81 |
| 播客 创业内幕 (2251条, 4.2H) | 创业、产品、投资 | 4.72| 3.98 | 3.22⬇️ | 4.24⬇️ | 2.43⬇️ | 7.28⬇️ | 3.82⬇️ | 3.61⬇️ | 3.78⬇️ | 3.7 |
| 线下培训 老罗语录 (884条,1.3H) | 段子、做人 | 4.64| 4.60 | 3.81⬆️ | 6.46⬆️ | 3.30⬇️ | 14.13⬇️ | 5.66⬇️ | 3.98⬇️ | 5.50⬇️ | 4.76 |
| 直播 王者荣耀 (1561条, 1.6H) | 游戏 | 6.69⬇️| 7.35 | 5.69⬇️ | 8.14⬆️ | 4.01⬇️ | 10.32⬇️ | 8.31⬆️ | 5.48⬇️ | 6.14⬆️ | 6.92 |
| 电视节目 天下足球 (1683条, 2.7H) | 足球 | 1.29⬆️| 1.29 | 0.91⬇️ | 1.54⬇️ | 0.61⬇️ | 5.38 | 1.64⬇️ | 0.88⬇️ | 2.68⬇️ | 0.83 |
| 播客故事FM (3466条, 4.5H) | 人生故事、见闻 | 3.50| 3.59 | 3.22⬇️ | 3.82⬆️ | 2.22⬇️ | 5.62⬇️ | 3.72⬇️ | 3.28⬇️ | 3.65⬇️ | 3.67 |
| 罗翔 法考(1053条, 4H) | 法律 法考 | 2.02| 1.78 | 1.81⬇️ | 2.86⬇️ | 0.94⬇️ | 5.55 | 2.90⬇️ | 1.19⬇️ | 2.02⬇️ | 1.65 |
| 张雪峰 在线教育考研(1170条, 3.5H) | 考研 高校报考 | 3.43| 3.30 | 2.05⬇️ | 3.2⬇️ | 1.38⬇️ | 9.34 | 3.15⬇️ | 2.01⬇️ | 2.71⬆️ | 2.61 |
| 谷阿莫 短视频 影剪(1321条, 2.5H) | 美食、烹饪 | 3.92⬆️| 3.79 | 3.01⬇️ | 4.02⬇️ | 1.94⬇️ | 7.65 | 3.95⬇️ | 4.22⬇️ | 2.94⬇️ | 2.81 |
| 琼斯爱生活 美食&烹饪(856条, 2H) | 美食、烹饪 | 4.71⬆️| 4.63 | 3.61⬇️ | 6.29⬇️ | 2.53⬇️ | 13.17 | 4.85⬇️ | 3.07⬇️ | 4.56⬇️ | 3.99 |
| 单田芳 评书白眉大侠(1168条, 2.5H) | 江湖、武侠 | 5.1⬇️| 4.80 | 4.64⬇️ | 9.22⬇️ | 2.5⬇️ | 15.42 | 9.51⬇️ | 5.47⬇️ | 5.89⬆️ | 5.45 |

## 快速使用

请参考test文件下的测试脚本

| 测试脚本 | 功能 |
|---------------------|--|
| test_asr_all_in_one | 整合online、offline、标点和说话人识别的功能,目前依赖vad切割,会出现一句话多个说话人的情况 |
|test_paraformer_offline.py|一句话识别,支持热词,有标点|
|test_paraformer_online.py|流失识别,无标点|
|test_speaker_verification.py|受话人识别,自动注册,返回说话人id|
|test_vad_offline.py||

```bash
git clone https://github.com/lovemefan/paraformer-online-python.git
cd paraformer-online-python && pip install .
Expand Down

0 comments on commit 62d251f

Please sign in to comment.