Releases · reazon-research/ReazonSpeech

ReazonSpeech v1.1.0 は、任意長の音声のデコードをサポートした機能改善バージョンです。
2023年1月にリリースしたv1.0.0から、認識精度の面でも一段と向上しています。

ブログ記事: https://research.reazon.jp/blog/2023-04-04-ReazonSpeech.html

新機能

1. 新しい音声認識関数 `transcribe()` を追加しました

この関数を利用すると、ReazonSpeechの最新モデルで音声認識を行うことができます。
具体的な利用方法を以下に示します。

import reazonspeech as rs

for caption in rs.transcribe("test.wav"):
  print(caption)

指定可能なパラメータなどの詳細は、APIリファレンスを参照してください。

2. CLIインターフェイスを追加しました

Pythonコードを書かなくとも、コマンドラインから簡単に音声データを処理できるようになりました。
以下に利用例を示します。

$ reazonspeech  sample.flac
{"start_seconds": 0.671, "end_seconds": 7.194, "text": "埼玉県寄居町で３７６度前橋市で３７度ちょうど"}
{"start_seconds": 7.194, "end_seconds": 12.086, "text": "東京の都心で３５５度などと各地ですでに猛暑日となっています"}
...

3. 精度を改善した新しい音声認識モデルを公開しました

研究所で定期的に訓練している最新のモデルをHugging Faceで公開しました。
2023年1月に公開したreazonspeech-espnet-v1モデルとの比較で、ベンチマークに対する文字誤り率が約2%改善しています。

Hugging Face: https://huggingface.co/reazon-research/reazonspeech-espnet-next

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

新機能

1. 新しい音声認識関数 `transcribe()` を追加しました

2. CLIインターフェイスを追加しました

3. 精度を改善した新しい音声認識モデルを公開しました

Releases: reazon-research/ReazonSpeech

ReazonSpeech v2.1.0

ReazonSpeech v2.0.0

ReazonSpeech v1.1.0

新機能

1. 新しい音声認識関数 transcribe() を追加しました

2. CLIインターフェイスを追加しました

3. 精度を改善した新しい音声認識モデルを公開しました

1. 新しい音声認識関数 `transcribe()` を追加しました