ビジネスに役立つAIの基礎知識について分かりやすく解説する本連載。前回の記事から、いまAIが具体的にどのようなアプリケーションに使われているかを紹介している。今回は音声認識の分野について考えてみよう。
いまや毎日のようにAI(人工知能)の話題が飛び交っている。しかし、どれほどの人がAIについて正しく理解し、他人に説明できるほどの知識を持っているだろうか。本連載では「AIとは何か」といった根本的な問いから最新のAI活用事例まで、主にビジネスパーソン向けに“いまさら聞けないAIに関する話”を解説していく。
(編集:ITmedia村上)
音声認識とは文字通り、人の声(を記録したデータ)を分析する技術だ。音声を文字に置き換える、コマンドとして認識して命じられたアクションを実行する、音声に込められた感情を把握するなど、既に幅広く活用されている。
そもそも音声は、人間がコミュニケーションする上での根幹を成しているといえる。文字という視覚的なコミュニケーション手段の登場前から、人類は声でお互いに意思疎通してきたし、現在でもさまざまな会議は「声」を中心に行われている。
音声認識の歴史は古く、1952年には米ベル研究所が数字の1から9までの音声を認識可能な「オードリー」(Audrey)というシステムを開発。ちなみに本連載でも紹介したが、AIという言葉が誕生したのは1956年だ。
オードリー誕生から9年後の1961年には、米IBMが「シューボックス」(Shoebox)というシステムを開発。こちらは数字の0から9までに加えて、「プラス」や「マイナス」といった6つのコマンドを認識し、簡単な計算を行わせることができた。
日本でも1962年に京都大学が「音声タイプライター」という装置を開発した。これは「あ」や「い」のように、単音節単位で認識するものだったが、数字だけでなく言葉を機械に認識させようという取り組みが、半世紀以上前から行われてきたのである。
その後、1990年ごろからニューラルネットワークが音声認識の分野でも活用されるようになり、こちらも画像認識と同様、ディープラーニング技術を使って非常に高い精度の音声認識が実現されるようになっている。
それがどのくらいの精度かというと、米Microsoftが2016年10月に発表した論文の中で「音声の文字起こしのプロ以上にエラーの少ない音声認識システムを開発した」と宣言したほどである。この論文によると、彼らの開発した音声認識システムの単語エラー率(Word Error Rate:WER)は5.9%で、これは人間の専門家に会話の文字起こしを依頼した場合と同程度の数字だそうだ。
近年では、音を解析するだけでなく自然言語処理などの技術と組み合わせ、より言語や会話として正しい文章を認識させるといったアプローチも発展している。
静かな環境に限定せず、周囲に騒音がある中で音声だけ抜き出して認識する、複数人で会話が行われている場合に個々の話者を特定するなど、より現実に近い、高度な認識を行える技術の開発にも力が注がれている。
ではこうした、高精度かつ高性能な音声認識技術は、具体的にどのようなアプリケーションを生み出そうとしているのだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR