« ある女の子の「父の日」 | トップページ | 日本の少子化対策はあるのか・・・フィリピンの田舎でふと思う »

2017年6月20日 (火)

人工知能AIを使う 日本語の翻訳・通訳ってどこまで出来るんだろ

2~3日前に FACEBOOKで こんな情報を見たんです。

世界初! ウェアラブル 音声翻訳デバイス
https://iamili.com/ja/

「ワンフレーズの旅行会話」に特化することで高精度の
翻訳を可能に。

「高い」という言葉には、「expensive」と「high」という訳
が考えられますが、旅行のシーンではexpensiveを使う率が高い。
Iliは旅行というシーンに絞ることで、「使える」翻訳機を
実現しています。
交渉や商談は苦手です。

iliは「旅行」に特化した翻訳機のため、商談・交渉・医療現場
・専門用語などの翻訳は苦手です。

・・・ちょっとニッコリしてしまいました。
CMにしては 謙虚だなあ・・と思ったんです。

・・・・

5img_5504

で、そもそも、人工頭脳とか人工知能とかAIとか言うのは
どんな動き方、仕組みなんだろうって思ったわけです。

それで、こんなサイトで 5分で分かりたい ってことで
読んでみました。

「【5分でわかる】人工知能(AI)とは?概要や種類を
わかりやすく解説」
http://www.sejuku.net/blog/7290

人工知能とは、人間の脳が行っている知的な作業をコンピュータで
模倣したソフトウェアやシステム。

具体的には、人間の使う自然言語を理解したり、論理的な推論
行ったり、経験から学習したりするコンピュータプログラムなど
のことをいう。

・・・・ はい、やっぱり 人間が作ったプログラムな訳ですね。

人工知能研究者、研究機関によってその解釈や認識に多少の
ずれがあるからです。

いずれも本来の人工知能の実力が理解されないまま、限界が見えた
段階からブームが去ってきました。

・・・・ なるほど、人工知能って一言で言っても、
     そこにはいろいろな考え方、定義があるらしい。

個別の領域に特化して能力を発揮する「特化型人工知能」と、
異なる領域で多様で複雑な問題を解決する「汎用人工知能(GAI)」
の2つに分類できます。

・・・・ つまり、上記の旅行者向けの日本語通訳の場合は、
     特化型ってことですな。
     謙虚に 「これ以外は出来ません」って書いてあります
     もんね。

逆に、ある枠を超えて考える人工知能を「強いAI」と呼び、
人間のようにものを考え、認識・理解し、人間のような推論・価値
判断のもとに実行をすることができるものを指します。
この AIは自律的に学び、意思決定行うことができるものです。

・・・・ これですねえ。
     私がなんで、日本語の自動翻訳のAIがどんなもん
     なんだろうと思ったのは・・・

     
レベル3になると ある程度のサンプル数から自動的にそのパターン
ルールを学ぶことができます。
判断軸さえあれば、データからルールを設定・学習してより良い
判断ができるのです。

・・・・ はい、ここです。
     私が日本語を教えてきて、16年ぐらいになるんです
     けど、日本語のいろんな表現を見て、そのパターンと
     どんな規則性があるのかを考えて、それを踏まえて
     どんな教え方が出来るかを考えるんです。

このレベル(4)は先ほどのレベル3にあったパターンとルールさえも
人工知能が自ら学んで知識データとして積み重ねていく段階です。
判断軸を自分で発見し、自分でルールを設定して、判断を下すことが
できます。

・・・・ これは判断軸を自分で発見するってことですから、
     まさに私みたいな日本語教師がやっていることと
     同じですね。

Img_5668

学習の根幹を成すのは「分ける」という処理である。ある事象に
ついて判断する。それが何かを認識する。うまく「分ける」こと
ができれば、物事を理解することもできるし、判断して行動する
こともできる。「分ける」作業は、すなわち「イエスかノーで
答える問題」である。

・・・・ はい、この「分ける」、そして「イエスかノーか」
     で答える。
     これも、日本語を分析して、その分けた中に
     どんなルールがあり得るかを見つけ出す作業です。

ディープラーニング(深層学習)」とは、「分けるための軸
自分で見つけることができる」ものを言います。

・・・・ さて、この辺りからが難しいんですよねえ。
     私がなんで、この辺りにこだわりを持っているかって
     言うと、私が日本語の教授法を学び始めた頃、
     2000年ころに遡るんです。

その当時、私は 確かNHKのドキュメンタリー番組だったと
思うんですが、「コンピューターで日本語を翻訳するエンジニアの
挑戦」みたいな感じの番組を見たんです。

ある大手のコンピューター会社のエンジニアが、自動翻訳の
プロジェクトを任され、まず日本語とはどんな言語なのかを
日本語研究の大御所のところへ指南してもらいに行くわけです。

ところが、その日本語学の大御所が、
そんな無駄なことはやめなさい。」
みたいなことを言うんですねえ。

なんでかって言うと、
日本語の文法ってのは、学者の数ほど学説がある。」
ってな話なんです。

つまり、これが日本語の標準的な文法だ・・っていうような
万能な文法規則が未だ見つかっていないって話なんです。

勿論、我々日本人は、学校時代に「国文法」と言われるものを
学んできたんですが、これは一説によれば、英文法をベースに
して、日本語に無理やりにあてはめた解釈のひとつに過ぎない
・・・なんてことでもあるようなんです。

wikipediaで、まず 「日本語」の文法の部分を読んでみましょう。
https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E

「日本語の文にはそもそも主語は必須でないという見方も成り立つ。
三上章は、ここから「主語廃止論」(主語という文法用語を
やめる提案)を唱えた。」

・・・・ これは有名な学説なんですけど、「日本語には主語がない」
     という学者もいるんです。

「ただし、三上の説に対する形で日本語の文に主語が必須であると
主張する学説は、生成文法や鈴木重幸らの言語学研究会グループなど、
主語に統語上の重要な役割を認める学派を除いて、少数派である。
森重敏は、日本語の文においても主述関係が骨子であるとの立場を
採るが、この場合の主語・述語も、一般に言われるものとはかなり
様相を異にしている。現在一般的に行われている学校教育における
文法(学校文法)では、主語・述語を基本とした伝統的な文法用語
を用いるのが普通だが、教科書によっては主語を特別扱いしない
ものもある。

・・・・ まあ、ことほど左様に、日本語の文法に関しては
     一筋縄では行かないまま、今に至っているってことです。

     そこで、こういうものを、人工知能AIが
     どのように扱えるのかというのが 興味のある
     部分になるわけです。

     そこで気になるのが「ビッグデータ」と「ディープ・
     ラーニング」がどう関わるのかという点です。

Img_5693

ディープラーニング(深層学習)」とは、「分けるための軸
自分で見つけることができる」ものを言います。

猫の特徴を覚えさせる必要があります。
まず、「どの部分が猫と判断できる特徴なのか?=特徴量」を人が
人工知能に教え込む必要があります。
そして、その特徴を元に認識した物体が「猫」であるという概念を
覚えてもらう必要があります。

「ディープラーニング(深層学習)」は、この特徴量を自分
見つけ出すことができる技術で、最大の壁を崩すことができる
可能性を持った技術なのです。

・・・・ さて、このリンクしたサイトは、宣伝サイトですから
     ここまでの説明ですが、きっと最先端の研究では
     かなりいろんな分野での研究が進んでいるのでしょう。

     では、仮にAIが進んで、コンピューターが
     ビッグデータを元にして 自動翻訳が出来るように
     なったとしましょうか・・・

     私がそこで思ったのは、NHKテレビの字幕のこと
     なんです。

まずwikipediaでチェック

リアルタイム字幕放送
https://ja.wikipedia.org/wiki/%E3%83%AA%E3%82%A2%E3%83%AB%E3%82%BF%E3%82%A4%E3%83%A0%E5%AD%97%E5%B9%95%E6%94%BE%E9%80%81
リアルタイム字幕の原理には、人間が聞き取ってキーボードから文字を
入力する方式と、音声認識技術を用いた音声認識方式と、の2方式が存在する。

基本的には音声認識による文字情報の直接生成を用いたものである。
音声認識は現在でも100%の変換が難しいものであるが、ニュース
おいては語調や使用される単語などを一定の条件に制限できる事から、
この用途に限って音声認識を用いる事で高い変換効率を実現した。

・・・・ で、さらに、NHKで使われる放送用語をチェックしてみると:

放送のことばと日本語の未来
https://www.nhk.or.jp/bunken/summary/research/report/2007_11/071101.pdf
   
放送番組のことばは,NHK の放送用語委員会などが中心になって決
めてきたと思われますので,それは大変だったと考えます。

放送を離れて日本人のことばづかいという点から考えても,
国民はNHKの放送の影響を大きく受けてきたと思うのです。

実際に社会生活の中で使われている お手本となるようなことば
がないと,私たちは日本のことばを学ぶことができないんです

日本語の将来についても,NHKとして果たさなければならない責任
がきっとあるだろうと思うのです。

問題はむしろ日本人のための日本語をどうするかということだ
と思うのです。しかしそれを決めることは非常につらい
面があるのです。なぜかといいますと,放送の場合は不特定
多数に開かれていて全国民が対象になります。その人たちの
需要のすべてを分析しきるということは非常に難しい。

何を標準とするかいうことが問題で,不特定多数を対象にした
規範づくりは容易なことではありません。

「これから先,共通語と方言とどちらを大事にする教育を
すべきだと思うか」という二者択一の問いをしたときに,
お年寄りよりも若い世代のほうがむしろ「方言を大事にすべきだ」
と言ってるんです。

昭和34年の段階では「放送のことばは,原則として標準
による。必要により方言を用いるときは、慎重に取り扱う。
また娯楽番組では,その地方の人々に反感や不快の念を
与えないよう配慮する」とうたっていましたが,平成7年
に改訂されたときには「必要により方言を使う」と,
より積極的な表現に変わっています。

話していることばは全部字幕にしようと,テレビもそういう
方向になりつつあるのですが,最近は携帯のワンセグで
音声の文字字幕を出せるものもあるので,音を聞かずに
そのまま画面だけ見てドラマを見るというのがそれほど
不思議でもなくなってきているんですね。

Img_5820

・・・・ 私が日本語教師として NHKの字幕を見ながら
     何を考えたかというと、
     字幕はアナウンサーではない人たちの方言や、
     ごく普通の日本語を 文法的に正しい言い方に
     修正したり、標準語として通用する言い方に
     言い直して表示していると思うんです。

     それは、上記にあるように、音声認識は
     使えないレベルの自由な日本語なわけですね。

     それが、いわゆるAIやその元になるビッグ
     データが使われるようになったら、どんなこと
     になるんだろうと興味を持ったんです。

さて、そこでビッグデータとは そもそも何ぞや??

「ビッグデータ」を扱うためには、既存の概念に捕らわれていてはダメ
https://www.graffe.jp/blog/2693/

「ビッグデータ」という言葉から、大量データを扱う事は
分かっていても、どのようなデータを扱っているか?
どのような効果があるか?

多くの場合、ビッグデータとは単に量が多いだけでなく、様々
種類・形式が含まれる非構造化データ・非定型的データであり、
さらに、日々膨大に生成・記録される時系列性・リアルタイム性
のあるようなものを指すことが多い。

「ビッグデータ」という言葉には、「巨大なデータ」、
「様々な種類・形式のデータ」、そして、それらを扱える
「仕組みやシステム」という3つの要素が含まれています。

ビッグデータでは「構造化データ」以外に「非構造化データ」
の中の一定の規則性があるデータについて、ファイルデータ
からデータ項目単位で値の検索、取得などが行えるようになりました。

しかし、ビッグデータ分析では、今まで対象にならなかった
データ種類を扱うことができるため、データ種類を組み合わせ
たり、扱う事が困難なデータ構造を分析する必要が出てきます。

様々なアプローチで分析を行い、その中から新たな仮説を導き出し、
更に様々なアプローチで分析する必要があります。

・・・・ まあ、よく分からんのですが、要するに
     様々の形式の様々なデータが膨大にあるのが
     ビッグデータなので、分析のアプローチを間違えると
     変な結果も出るよ・・・ってことですかね?

     つまり、上のNHK用語の関連で言えば、
     ある一定の「あるべき日本語」という意識的な
     目標がないと、日本語が変な方向にいくかも・・・
     ・・・てなことになりませんか。

私がNHKの字幕をみる度に思っていたのは、そういうこと
なんです。

ビッグデータに基づいて、それをAIがディープ・ラーニングで
自律的にパターンやルールを発見し、判断の軸なるものを
作って、様々な日本語を自動翻訳するようになったら
一体ぜんたい どんな日本語になってしまうんだろうってこと
なんです。

言語は生きているものだから、時代に沿って変化していく。
そして、ビッグデータも変化していく。
それは大多数の人たちの日本語ではあるだろうけど、
将来を見ながら「あるべき日本語」を目指すというものでは
なくなるわけですね。

ある方言が、その自動翻訳をとおすことによって、
新種の共通語みたいな日本語に翻訳され、それがNHKの
画面に表示されるってことになるんでしょうか?

そして、そういうAI日本語が外国語との間で相互に翻訳
されることになるのでしょうか。

ちょっと前に、どこかの会社のAIがいわゆるヘイト・スピーチ
を多用するようになったとかで、停止されましたよね。

そんなことが日本語で出てくるってことなんでしょうかねえ。

Img_5743

こちらにこんな記事がありました。

「コンピューター自体を教育する」時代の到来
http://gakkai.univcoop.or.jp/pcc/2016/papers/pdf/pcc100.pdf

片寄ったデータをAIに「偏食」をさせることで「偏向教育
のリスクが生じる。マイクロソフトのAIがツイッターで
ヒットラーを礼賛し人種差別発言を行った話はそのためと
推測される。

AIは、原則としてデータのキュレーションを人手でやら
ないという。多少問題ありそうな文献であっても、とにかく
全数を読み込ませることによって、学習を進展させる。
つまり、全数読み込みが基本なのである。
そこでヒトがふるいをかけていない文献を全数読み込むこ
とによって問題が生じる。

「Tay」は、公開直後から徐々に差別的なヘイトスピーチや
ヒトラー礼賛を始めてしまったのだ。これは一部のユーザー
が意図的に人種差別や性差別などを書き込み、それを繰り返す
ことを通じて機械学習していったからである。つまり、
意図せずに「マイクロソフトの人工知能が差別思想に染まっ
た」のである。結果、同社はたった一日で実験中止に追い
込まれてしまったのだ。

・・・まあ、例えばこんなこともあるわけで、日本語の
AI自動翻訳なんかにも、日本語教師が必要になるって
話でしょうか???

AIに人間教育って話ですかねえ・・・・変なの!

 

Img_5757

|

« ある女の子の「父の日」 | トップページ | 日本の少子化対策はあるのか・・・フィリピンの田舎でふと思う »

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/134315/65437280

この記事へのトラックバック一覧です: 人工知能AIを使う 日本語の翻訳・通訳ってどこまで出来るんだろ:

« ある女の子の「父の日」 | トップページ | 日本の少子化対策はあるのか・・・フィリピンの田舎でふと思う »