SIMPLE

シンプリストになりたいのです

文字を起こす

「文字起こし」ってご存知でしょうか。

文字を起こす。何から?というと音声データや動画から。今回は、そういった音声や動画のデータから文字を起こすことについて綴っていこうと思います。

これまでの文字起こしとあれこれ

以前、とある国立大学の図書館で契約社員として勤めていたことがあります。

コロナ禍で大学には入校制限が設けられ、明日はどうなるのか分からないようなそんな大変な時期でした。そんななかオンライン授業が一気に広がっていくのを目の当たりにしていたわけです。

同室にオンライン授業を担当の方もおられたので、ちょいちょい私もオンライン授業を拝見させていただくことがあったのですが、アナログ人間を自称する私にはもうハイレベル過ぎて、オウオウ…とうろたえるばかりでありました。

そのオンライン授業には、字幕がついているのですけれど、その字幕って今は自動生成されるのですよね。詳しい仕組みはわかりませんが、AIが音声を認識して、タイミングをあわせて字幕を起こして…って。すごい機能だなぁと感心するわけですが、当然ながらところどころ文面がおかしいわけです。

人間が授業をしているわけですから、たとえ授業をレジュメ通りにやっていたとしても、「えー」とか「あの、ここはですねー」とか間延びするような何か、いわゆる「ケバ」というものが発生して、文脈がおかしくなることもあります。当然、人間ですから言い間違いもあります。自動生成される際に、「わたし」という言葉が「私」になったり「渡し」になっていたりとか、そういう惜しい変換間違いもあります。

その大学では母国語が日本語の方もおられれば、そうではない海外の言葉を母国語とし、日本語を話さないという方もおられました。そういった方は字幕を英語であったりに変換してみていると思うのですけれど、ちょいちょい間違っている字幕をみる度、大丈夫だろうかと不安になるのでした。

最近では、YouTubeでも字幕が自動生成で付与される機能がついてて、もともと字幕をつけていらっしゃる動画に更に字幕が付くという二重状態になることがたまにあります。OFFにするのが面倒でそのまま見ることもあるのですが、これもまたちょいちょい違って、それがまた面白かったりもするのですけれど。

私も過去、1度だけ動画を作ったことがあるのですが、その際に文字に起こすのが結構面倒だったのを覚えています。私の場合は、音声のない動画に説明のために文章を入れていくので、厳密には文字起こしというわけではないのですけれど、それでも大変な作業でした。HIKAKINさんや多くのYoutubeチャンネルさんでは、字幕を入れてくれていますが、それがいかに大変なのかを痛感したのです。ありがたや。

あまり耳がよい方ではない(特に左耳が聞こえづらいです)ため、映画やYoutube動画でも字幕が必須の私。日本の映画でも字幕があれば、字幕付きで観ています。

そんな私。今回ちょっととある機会に巡り合いまして。金銭は発生しない、チャレンジということなのですけれども、その文字起こし体験というものをしてみました!いったいどれだけ大変なのでしょうか…。

文字起こしにチャレンジしてみる

今回は30分のMP3のデータを、こちら↓のOkoshiyasu2とPCのメモ機能を使って文字起こしをしていきたいと思います。

簡単にやり方を説明すると、Okoshiyasu2で音声を再生しそれを聞いて、メモ機能に入力していく、それだけです。それだけなのですけれど、初体験の私には超難関でした。

まず話している内容を理解しつつ文章を入力しなければなりません。”わたし”が”私”なのか”渡し”なのかを判断しながらというわけですね。

そして、普通に会話している速度で文字を入力するとなると至難の業となります…。このOkoshiyasu2には速度を調整する機能がありますので1倍(要はそのまま)で聞くことも、0.5倍にしてゆっくり聞くことも可能です。

また、〇秒戻す、進むといった指示を出すことも可能ですので、それらを駆使して作業を進めていきます。

音声を再生して、「はじめまして」という言葉があれば、それを聞きとって、メモ機能に入力する。聞き取れなければ、数秒戻してもう一度再生する、それを何度も何度も繰り返して、やっと30分の音声データの文字起こしをすることができます。

どれくらいの時間がかかるのか

30分の音声データを文字起こししてかかったのは、およそ3時間でした。「えー」とか「あのー」とかいうケバも含めてぜーーーんぶ、何も考えずにひたすら文字を起こしていって、3時間…。いやはや、なかなかに大変でした。タイピング自体は、このブログであったり、普段からしているので、平均的な速度だと思います。それでもこんなにかかるのですね。

当然、慣れてくるともっと早くなると思いますが、自動生成では数秒でできる作業にこんなにも時間がかかるとは。AIってすごいなぁ。

まとめ

その他、誤字脱字のチェックに1時間、表記を揃えるのに3時間かかり、そして表記を揃えた分がおかしくなっていないかの誤字脱字チェックにさらに1時間。合計9時間も文字起こしの作業にかかりました。

今回はあくまでチャレンジ!企画。お仕事やどこかに発表するものではありません。これをお仕事としてされている方は、こんなにも大変な作業をされているのかとびっくりしました。

ふと思い出したのですが、昔、イベントとかラジオの内容を文字起こししているサイトがあったんです。今にして思うとグレーだよなと思うんですけれど。当時はまだ中学生くらいでイベントやラジオを聴ける環境ではなかったので、そういった文字起こしされた文面がありがたかったんです。その裏にはこんなにも苦労があったのだと、今になって知ることができました。こんなにも大変な作業を趣味でされているかたって、本当にすごいなぁ…と。

これをきっかけにお仕事に繋げるか…と言われると要検討。効率を考えるなら、1度他のソフトで自動生成した文章をチェックしていくという作業にした方がよさそうだなと思いました。

Okoshiyasu2は無料でダウンロードできるソフトですので、皆さんも興味があればチャレンジしてみてくださいませ❀