「不気味の谷」生成AIとロボット - ときおり人生ジャーナル by あきしお ⁦‪@accurasal‬⁩

また書いてるうちに超のつく長文になってしまいました。今回の

"人生ときおり" テクノロジー・ヘッドライン、

題して「未来への違和感」 - ヒトとロボットの共生　そこに必要となることは何か。脅威の話

✳️ 科学領域・テクノロジー。ソーシャルメディアでポストされた (信頼できると思う識者による) アブストラクト的な解説を読み、未来につながっていく "想像 / 創造の掛け算シナジー" をします。

１. ロボット工学者・森政弘氏の提唱する「不気味の谷」*とは何か

２. 進化するAI : ChatGPT-4o がこれまでと根本的に異なる高度な機能を持つ理由、のふたつ。

まず１. について、私の短い感想から:

映画「A.I. 」や「エクス・マキナ」のロボットを思い浮かべると、なるほどそうだな、と思い出すような違和感があるように思います。
無論それらはあくまでも仮想のこれら映画の中での “描かれ方” にすぎませんけれど。

因みに２つの映画👉前者はスピルバーグによる未来ファンタジー、そして後者は同じ監督によるサスペンス、「違和感がなくなったとき起きる一種のホラー」人間の危機を描いています。

A.I. 👉　 https://g.co/kgs/1LoZTRz

エクス・マキナ 👉　https://g.co/kgs/xpR81H1

* 生命体以外のものに対する人間の気持ちの変化を表したロボット工学上の概念 (以下の図)

f:id:andy-e49er:20240526114824j:image

出所 : X アカウントid @positivenumber1 さんのポストから引用、拝借して以下全文の掲載です。👇表題

不気味の谷。。。ロボットと人間の「似て非なる関係」

昨今、AI搭載ロボットや生成AI画像や動画の中の人物と人間の関係において、不気味さを感じさせる領域が存在するようです。

ロボットや生成AIの中の「ヒト」が人間に酷似していれば人間は受け入れられますし、全く人間離れしていれば問題ありません。
でも、中途半端に人間に似ているがゆえに、かえって不気味な印象を抱いてしまうのです。

この"中途半端な似て非なる領域"は、日本のロボット工学者である森政弘氏が提唱している「不気味の谷」と呼ばれる「ロボットや生命体以外のものに対する、人間の気持ちの変化を表したロボット工学上の概念」です。

ロボットが人間に似てくるにしたがって、最初はロボットに対する親近感や好意を覚えるのだけれども、ある一定水準を超えると急に今までの親しみから一転して嫌悪感、気味の悪さを感じ出すことはありませんか？

で、更にもっとロボットを人間の外観や動作と見分けがつかなくなるくらいそっくりにするとまた安心して好意を抱くようになるという不思議さ。

このプラスの感情がマイナスの感情に変わる谷間のことを「不気味の谷現象」と呼びます。

このように、ある一定の人間離れをすれば気にならないのですが、ちょうど人間に似ているが何かがおかしい、
そんな中途半端な領域の存在がキーポイントなのです。

人間の脳には、本能的に病気や死体といった「非人間的」なものを避ける機能があり、この不気味の谷現象はそれに由来するのかもしれません。

つまり、人間非人間を判別する機能が、ロボットへの不気味さになっているのです。（蛇足ですが、人間でも、美容整形を繰り返してサイボーグ化した容貌の方に、私は逆方向の不気味の谷を感じてしまいます）

今後生成AIやロボット技術がより人間に近づいて人間のアシスタントや、人間と一緒に働くようになればなるほど、この不気味の谷現象を私たちがどう克服するかが課題になってくるでしょう。

ま、人間の本質的な部分が現れているとも言え、めっちゃ興味深い現象なので、個人的には今後が楽しみです。

逆に今後生成AIやロボットが私たち人間を「不気味」と怖がったりする谷現象もあったりして（笑）。。。

▲引用した X の全文はここまで。(ゴシック体や色を変えたのはブログ筆者による。)

さて以上のことと合わせて考えたいのが次のテクノロジー話。間違いなく人間に似せたロボットには、進化したAIのプロセッサー(処理能力を備えた頭脳に当たる半導体など) が備わるものと思います。そこで現時点で最新のAIに関する機能追加(新たなサービスの導入と今後の可能性)についての技術的解説です。

これは私のBoston時代の友人が翻訳した技術説明の文章。AIテクノロジー解説です。

この翻訳の中ほどよりあとはいかにもIT専門の技術解説用語が多くなっています。　一般人に理解しづらい用語や説明が多くあると思うので読み飛ばしたら良いかと。

前半は私のような(技術者ではない)者でもある程度理解できました…。簡単に説明しますと、要するに、Chat GPT というAI(製品)の次の進化版では、テキストデータだけではなく人が話した音声や画像 ( ビデオ、つまり動画) も含めてAIがより自然にその内容をしっかりと読み取れる。それに対するアウトプットとしての反応をこれまた人間に近く (?!) 出してこれるようになる⁉️ という感じでサマったら、理解は合っているでしょうか…？　

興味ある方はぜひ一度リンクから読んでみてください。noteによる解説。表題は、

なぜChatGPT-4oが他のLLMと根本的に違うのか？ - マルチモーダルの仕組み　　です。

f:id:andy-e49er:20240527052320j:image そのリンクはこちら👇

なぜChatGPT-4oが他のLLMと根本的に違うのか？ - マルチモーダルの仕組み｜鈴木いっぺい (Ippei Suzuki)

著者 : Ippei Suzuki 氏

一部を抜粋します…

真にマルチモーダルなモデルでは、オーディオ、テキスト、画像、またはビデオをモデルに送信し、要求に応じてモデルがテキスト、画像、またはオーディオ（ビデオはまだ）で応答します。

LLM (注) は実際の状況に基づいた、より現実的な応答を生成し、言葉以外のメッセージの重要な特徴も捉えます。

(注) LLM : Large Language Model って何⁇

テクノロジー素人の私の理解

👉A.I. 人工知能とは？

　LLM って、膨大で巨大な分量のドデカ知識をコンピュータが理解する機械語に変換。壮大な「データの泉」と化したもの。百科事典のお化け、というか、一つのネット上の仮想宇宙みたいな知識の溜池 (セマンティック、であってるかな) を作っちゃうんだな。すげ〜よ。

Semantic Space Theory
現代のAIにおいて最も美しい概念の一つが潜在空間です。ここにはモデルの世界の理解が存在します。

　それを( 例えば nVidea社のグラフィック演算のプロセッサーである半導体チップ GPU の中にプログラムとして搭載) あらかじめ備えておくわけ。つまり、似たようなものとしては、ゲーム機の🎮コンソール盤を操作してボタンを押したりしてインプットした命令が、画面上ではアバターの行動になるイメージかな。

テキストデータや画像、音声などを計算する (演算処理を行う) ことで、アウトプットにつながってるんだけど、人工知能が瞬時に答えを出して動かして、回答をくれる。そんなとこか。

「ツー」と言えば、「カー」と答えるの超高速版ゲームみたいなもんかな。阿吽 (あうん) の呼吸を機械がやっちまうんだ。すげ〜よな…。