Skip to content

Releases: reazon-research/ReazonSpeech

ReazonSpeech v2.1.0

01 Aug 08:47
Compare
Choose a tag to compare
ReazonSpeech v2.1.0

ReazonSpeech v2.0.0

13 Feb 16:50
Compare
Choose a tag to compare

ReazonSpeech v1.1.0

04 Apr 09:10
v1.1.0
Compare
Choose a tag to compare

ReazonSpeech v1.1.0 は、任意長の音声のデコードをサポートした機能改善バージョンです。
2023年1月にリリースしたv1.0.0から、認識精度の面でも一段と向上しています。

新機能

1. 新しい音声認識関数 transcribe() を追加しました

この関数を利用すると、ReazonSpeechの最新モデルで音声認識を行うことができます。
具体的な利用方法を以下に示します。

import reazonspeech as rs

for caption in rs.transcribe("test.wav"):
  print(caption)

指定可能なパラメータなどの詳細は、APIリファレンスを参照してください。

2. CLIインターフェイスを追加しました

Pythonコードを書かなくとも、コマンドラインから簡単に音声データを処理できるようになりました。
以下に利用例を示します。

$ reazonspeech  sample.flac
{"start_seconds": 0.671, "end_seconds": 7.194, "text": "埼玉県寄居町で376度前橋市で37度ちょうど"}
{"start_seconds": 7.194, "end_seconds": 12.086, "text": "東京の都心で355度などと各地ですでに猛暑日となっています"}
...

3. 精度を改善した新しい音声認識モデルを公開しました

研究所で定期的に訓練している最新のモデルをHugging Faceで公開しました。
2023年1月に公開したreazonspeech-espnet-v1モデルとの比較で、ベンチマークに対する文字誤り率が約2%改善しています。

cer