Yahooの4月1日ネタが現実に!見ている夢を画像として取り出す技術紹介

2003年頃にYahoo Japanのニュースに次のような記事が公開されたことがある(検索しても全く見つからず、覚えている人は教えてください)。

 

脳で想像した内容を画像化することに成功

※ 私が覚えている記事中の画像(に似せた画像)

 

たしかスキンヘッドの黒人男性が頭に機械のようなものを取り付けていた写真が掲載されていた。

ニュースの中では「顔は覚えているが着ている服などは記憶が曖昧なので、復元画像もボケて表示される」等々、それっぽい事が書かれていた(記憶がある)。

※ 私が覚えている記事中の画像(に似せた画像)

 

これが実現できれば、近い将来

  • 死の直前を伝える(ダイニングメッセージの代わりに、走馬灯、幽体離脱など)
  • コミュニケーションへの活用(喋れない人(病気等)と、人間以外の生き物と、映像解析による文字伝達)
  • 新しいUX(考える事で操作できるデバイス)

のような世界が広がると……凄いと思う反面恐ろしい時代が来そうだな……と思った記憶がある。

 

実はこれは、エイプリルフールのネタだった。

このサイトを表示したまま数十秒経過すると「今日はエイプリルフールです」と表示されたらしい……。

そして、黒人が頭に付けているものも「聴診器」だったらしい……。

騙された事とニュースの内容が科学的かつ衝撃的だったので今でも鮮明に覚えている。

当時、このニュースを聞いて論文を読んでみようと研究者の名前をググったり、関連記事を調査してみたけど全く見つからなかった……。

で、数週間後にエイプリルフールネタだと知った。

 

スポンサーリンク

そして20年後、とうとう現実となった

大阪大学大学院生命機能研究科の高木優助教チームは、脳活動からMRI スキャン データより潜在拡散モデル(Stable Diffusion)の内部表現への変換(デコーディング)を行うことで、知覚内容の映像化を行えることを発表している。

と論文を眺めてみたけど、これまた専門用語が多くて難しい……。

Stable Diffusion with Brain Activity
Accepted at CVPR 2023 Yu Takagi* 1,2 , Shinji Nishimoto 1,2 1. Graduate School of Frontier Biosciences, Osaka University, Japan 2. CiNet, NICT, Japan

また、視覚体験のデコーディングについては神経生理学の知見を応用した他にも多数の研究が存在しているようだ。

この研究を総称して

 

ブレイン・デコーディング

 

と呼ぶらしい。

このキーワードでググると比較的分かりやすい説明もあったので、学習するか……

……と頭を悩ましている時に、GIGAZINEがまとめてくれていた。

画像生成AI「Stable Diffusion」でfMRIによる脳活動のデータから画像を生成する研究を阪大の研究者が発表
磁気共鳴機能画像法(fMRI)は、脳内の活動部位を非侵襲的に測定するための方法です。このfMRIで測定した脳の機能活動から画像生成AIのStable Diffusionを使い、被験者が見た画像を再構築することに成功したという論文を、大阪大学大学院生命機能研究科の高木優助教らが発表しました。

ブログを書き始めた途中に社内の機械学習サークルの方にGIGAZINEのサイトを紹介されてしまったので、趣向を変えて、より簡素にブレイン・デコーディングの仕組みを載せておくことにする。

ブレイン・デコーディングの簡単な概要理解

MRI スキャナは、病院で 頭や体の輪切り画像を撮ってもらう機械。

これによりMRIで「体の構造(形)」を可視化している。

MRIのもたらす構造情報の上に脳の機能活動がどの部位で起きたかを画像化するには、fMRIを使う。

fMRI (functional MRI) はMRI(磁気共鳴画像)を利用して、ヒトおよび動物の脳や脊髄の活動に関連した血流動態反応を視覚化する方法。

血流増加によるわずかな磁気の変化を捉えることで、脳の活動部位を視覚化できる。

けれど fMRI 脳画像を見ても、人間が目で見て分かるような明確なパターンはない。

このため人間が目で見てわからないような細かく複雑なパターンを機械学習で認識させる。

 

たとえば、じゃんけんでグー・チョキ・パーのどの手の動きをしているかを脳からデコードしたい場合、グー・チョキ・パーの動作をしてる時の脳画像を 15分程度計測する。

そして脳画像データとグー・チョキ・パーを対応付けたものを「機械学習」に入力する。

すると、このプログラムが脳画像の複雑なパターンとグー・チョキ・パーの動作との対応関係を自動的に発見する。

おわりに

将来の活用方法は次のとおりと記載されていた。

  • 職場での人間関係や夫婦関係、恋愛にも有利になる
  • 商品開発やマーケティングにも利用できる
  • 司法の現場で活用することも可能(米国ではうそ発見器として脳イメージングを利用することが議論されている)
  • 病気やケガで手足を動かしたり声を出したりすることができない人々にとって福音ともなる
  • 脳の信号を使ってロボットやコンピュータを操作する「ブレイン–マシン・インターフェース」によって、障害を克服できる
  • だれもが日常生活で使う新しい情報通信手段として利用

ほとんど冒頭で述べた内容に似ている。

 

対話型でテキストを生成する「ChatGPT」や、より質の高い画像が生成できる「Stable Diffusion」など……世の中のAI進化が激しいな。

ChatGPTも仕組み紹介しようと思ったけど下記のYouTubeを見ると技術の概要と過去の歴史がよく分かる。

「ChatGPTの仕組みと社会へのインパクト」黒橋 禎夫 京都大学 教授/NII・所長特別補佐
タイトルとURLをコピーしました