テレビ局3社が語る「自動字幕」の裏側　AbemaのAIポンはすでに実用レベル？

　聴覚障害者などのためにテレビ音声を字幕で表示する「字幕放送」。その字幕制作は、これまで主に手作業で担われてきた。プロフェッショナルがチームを組み、リレー方式で音声を聞きながらリアルタイム入力するため、どうしてもコストがかかっていた。しかし現在、放送局各社では、音声認識技術や人工知能（AI）を活用した次の技術研究を進めている。TBS、テレビ朝日、NHKら3社の担当者が「Connected Media Tokyo 2019」でその裏側を語った。

●TBSは“8：1：1”のハイブリッド方式で正確な字幕を実現

　2018年2月、総務省は「放送分野における情報アクセシビリティに関する指針」を発表した。県域局での放送（いわゆるローカル放送）に対して2027年までに字幕付与率80％を達成するよう目標を定めたのだ。キー局でさえ字幕付与率の向上に苦慮している中、さらにハードルが上がったと言える。

　それを受けてTBSがまず目指したのは、TBS NEWSでの24時間字幕付与だった。TBSテレビ技術局送出部木村浩也氏はシステム要件についてこう語る。

「報道という性格上、被害者の名前など情報は正確を期さねばならず、字幕にもミスは許されません。また字幕送出のスピードも要求され、運用コストが安価でなければ24時間適用できません」

　同社では現在、音声認識技術を利用した文字起こしエディター「もじこ」を開発中で、当初はこれを利用したシステム化も検討した。しかし、メインに据えるにはリアルタイム性に欠けた。

　そこで思いついたのがプロンプタシステムの有効活用だ。プロンプタシステムは、キャスター向けに原稿を表示するモニターシステムだ。そのプロンプタシステムに用意する放送原稿を字幕で見せる原稿とすることにした。

　結果的に、プロンプタシステム8割、従来の手入力による地上波字幕送出ログ1割、AIを利用した音声認識技術（開発中）1割の割合で構成される、「ハイブリッド方式字幕付与システム」が完成した。

　最初の放送で送出された字幕はログ保存されて、録画放送サーバと連携する。録画再放送ではアルバイト1人いればボタン操作のみで字幕を送り出せるようになった。全自動にしなかったのは、音声認識での誤表示とディレイ（遅延）を避けるためだったという。同氏はこのシステムの開発により、第45回放送文化基金賞を受賞した。

●音声認識技術＋AIで全自動リアルタイム字幕のAbemaTV

　一方、テレビ朝日技術局技術戦略部藤井祐介氏は同社が開発した字幕システム「AIポン」を紹介した。サイバーエージェントとテレビ朝日が出資して設立されたインターネットテレビの AbemaTV内、AbemaNewsチャンネルの昼のレギュラー番組「けやきヒルズ」で、“リアルタイムAI字幕”を提供しているのが「AIポン」だ。

　「AIポン」は、グーグルの音声認識技術「Google Speech API」を使い音声をテキストに変換。それをAIで修正して、Web通信で送出する仕組みだ。AIが関与しているのは、句読点の付与、「まあ」「あの」といった不要語の削除、放送禁止用語の自動削除・置換などだ。

　これにより無人で自動、しかもディレイが1秒以内という字幕付与システムを実現した。「AIポン」は、“対象がニュースである” “話者が同時に話さない”などの好条件の下では90％以上の正解率を出しているという。

　特長的なのは、変換途中のデータも放送画面に映すことだ。そのため後で字幕の内容が変わることもあるが、その分ディレイを抑制できる利点がある。

「現在、『AIポン』はオープンキャプション（常に表示されている字幕）の位置づけにありますが、ゆくゆくはクローズドキャプション（表示・非表示を切り替えられる字幕）として放送規格に合わせた送出も目指したいです。最近は、“スマートフォンで見ていて音声を出せない”というケースも増えているので、音声がなくても情報が得られる環境の構築に貢献していければと考えています」（藤井氏）

●NHKはWeb経由のセカンドスクリーン字幕を実験中

　続いて音声認識研究に長年携わってきた、NHK放送技術研究所の佐藤庄衛氏の取り組みを紹介した。

　NHKでは2019年2月4日から8月30日まで自動音声認識の字幕実験を行っている。前述した、総務省の新指針に端を発したものだ。

　NHKは、現状の体制のままでは県域局全体の字幕付与率を上げるのは難しいという判断から、セカンドスクリーンシステムを開発した。これは、クラウドの音声認識技術を使い、テレビ画面ではない別のスクリーン（視聴者所有のPCやタブレットなど）にインターネット経由で字幕を送出するもの。この字幕はWebブラウザを使えば誰でも見られる。スマートフォンやタブレットのカメラをオンにしてテレビ映像に字幕を重ねて視聴できるほか、カメラオフで字幕のみ端末に表示させることも可能だ。

　福島県の『はまなかあいづ TODAY』、静岡県の『たっぷり静岡』、熊本県の『クマロク！』という、夕方台のニュース番組3つで字幕が提供されている。

　音声認識の精度は、ニュース、天気などであれば93％程度の正解率が出る。ただし方言が強かったり、あるテーマについてのトークなど“企画もの”と呼ばれるジャンルではその認識率は半分程度に落ち込むという。日本語以外の言語も不得意だ。そういった場合は、あえて認識結果を出さないようにしている。

　NHK放送技術研究所がこのような実験を行う目的は「社会がこれを字幕として認めるかどうかの見極め」だという。もしこの字幕が許容されるようなら、本サービスへの適用も検討していく。

「音声認識が完璧になるまでにはまだ時間がかかり、そんな日は来ないかもしれません。だとしたら精度がある程度見込めるところから着手したいというのがわれわれの思いです。また、県域局レベルで実現するなら、さまざまな学習データ・仕組みを、民放含めて共有する体制の構築も必要だと思います」（佐藤氏）

●技術的には実現可能、誤認識を視聴者が許してくれるか

　さらに同講演では、関西テレビ放送の放送技術局技術推進部に在籍し、セカンドスクリーンサービスの実用化を目指すマルチスクリーン型放送研究会のメンバーでもある坂梨裕基氏をモデレーターとする3社のパネルディスカッションも行われた。

　高梨氏から登壇者へまず投げかけられた質問は「字幕は間違えてはいけないのか？」。これに対しTBS 木村氏は、「報道局からは『絶対に間違えるな』という厳命があった。そのため、音声認識ではなくハイブリッド方式に着地した」と回答。

　テレビ朝日藤井氏は、「『AIポン』はインターネットテレビだったから実現できた」と語る。「地上波だったら実現できたかどうかは定かではない。試験的に取り組んだ結果、“意外にイケる”となって、前に進みやすくなった」という。

　一方、NHK放送技術研究所佐藤氏は「間違ってはいけないことがあるのもたしか。現在行っている実験では、人名はカタカナで出している。しかし、どんなに進化しても100％にはならない。どこかの段階で認めてほしいという気持ちはある」と語った。

　また、放送規格では、実はクローズドキャプションは2つまで実装できる。第1字幕にはこれまでどおりのやり方で字幕を出し、第2字幕では誤認識ありと明示した上で、音声認識による自動字幕を実験的に出してはどうか。これが高梨氏からの2つ目の質問だ

　パネリスト3名ともこの案には賛成した。TBS 木村氏は「それならどの番組にもつけられる。第2字幕での実現も（総務省の）付与率にカウントしてほしい」、テレビ朝日藤井氏は「すでに実験は進めている」、NHK放送技術研究所佐藤氏は「ネット配信はどうしてもディレイが生じる。第2字幕は最も速い送出先だ」と語った。

　モデレーターの坂梨氏は最後に、「音声認識による自動字幕は、技術的には実現可能というところまで来ました。この先どうしていくか、みなさんも一度考えてみてください」と結んだ。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル！🍏

Reply ›

Forums › 📰ニュース › 生活の話

Home

›

Forums

›

Forums Home