マサチューセッツ工科大学(MIT)が人工知能に画像を見せるとその画像が『印象に残りやすいものか』を判定するシステムを開発した。

Researchers from MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) have created an algorithm that can predict how memorable or forgettable an image is almost as accurately as humans — and they plan to turn it into an app that subtly tweaks photos to make them more memorable.

世の中には印象に残りやすい写真と印象に残りにくい写真がある。そこには色々な要因がある。人が写っているもの、規則性のあるものといった具体的な理由から『美しい構図』という抽象的な理由まで、写真の印象に残りやすさは実に多種多様でとても言葉では言い表しがたい。MITは今回、ディープラーニングを用いて言葉では言い表しがたい画像の印象に残りやすさ、覚えやすさを判定するシステム『LaMem』を開発した。

deeplearning

ディープラーニング

2010年代になって急速に発展した機械学習法。主に画像認識の分野で使われることが多く、最近ではGoogleの画像認識にも使われており、特徴を強調する過程で生まれた『Deep Dream』(上画像)が公開され話題を呼んだ。

image by

Google

ディープラーニングの分野ではよくあることなのだが、LaMemもなぜそのようなことが出来るのかはよくわからないのだという。と言いつつも詳細がわからないだけで大まかなことはきちんと人間が把握していてひとまずLaMemは『かなり人間の感覚に近い』覚えやすさを再現できていると述べている。本当だろうか。幸いにもLaMemはこちらで実際に試すことができるのでいくつか試すことにする。

LaMemの使い方は実に簡単だ。サイトに飛べば『ファイルを選択』や『参照』など、ファイルを選択するボタンが目に映るのでそれをクリックしてあとは判定してもらいたい画像を選ぶだけだ。あるいはボタンの下の空欄に画像のURLを貼ることでも判定ができる。

lamem image by

MIT

ひとまず様子見にかわいい猫の画像をLaMemに見てもらう。

kitten image by

Getty Images

GoogleのDeep Dreamを自分で試せるサイトはサーバーが混雑していたのか公開直後は結果の表示に長い時間を要したがこちらはあまり注目されていないのかすぐに結果が表示された。

無題

Memorability:Very High

image by

Getty Images/MIT

『Memorability:Very High』と出た。『Memorability』は『Memory』+『ability』なので『覚えやすさ』とでも訳せばいいだろう。かわいい猫の画像はかなり覚えやすいらしい。下に表示されるスコアが高ければ高いほど覚えやすい画像ということになっている。最大値が1なので0.912はかなりの好成績だ。

なお、元の画像と被せて表示されているサーモグラフィーのような模様は特に覚えやすい部分を表す。赤色の部分が覚えやすい領域で青色の部分が覚えづらい領域だ。画像でいえば猫の顔のあたりが赤く、体の部分が全体的に黄色みを帯びており、背景は猫から遠ざかるにつれて青くなっている。『顔認識がされている』程度の話のような気もするがたしかに人間も最初に目につくのは顔であり覚えやすいのも顔なので『人間に近い』と言える。

次は人の顔のアップを試す。ただ試しては似たような結果になることは目に見えているので次は少しだけ顔を隠した写真だ。

shutM image by

fotolia

人の顔after

score:1

image by

fotolia/MIT

顔の上半分、さらに言うならば顔の中で一番注目されやすい眼を隠しているにも関わらずスコアは猫よりも高い最大値の1だ。顔を隠しているにも関わらず眼の辺りが赤いというのも『目を隠した人』という人間の第一印象に近い。

続いては少し引いた構図の人と背景という構図。

Fotolia_93957909_XS image by

fotolia

背景付きafter image by

fotolia/MIT

こちらはスコアが0.526とやや低い。人は覚えやすいがそれ以外の部分は覚えづらい、という結果が出た。

ならば生物の映っていない写真はどうだろう。幾つか試してみた。

senko-

線香

image by

Getty Images

線香after

スコア:0.803

なかなかに高いスコア。ピントが線香に集中しているところが覚えやすいということだろうか。スコアはともかくヒートマップが示す部分には納得できる。

image by

Getty Images/MIT

suntoryM

地球と太陽

image by

Getty Images

サントリーafter

スコア:0.407

一見覚えやすい気がするがスコアはさほど高くない。地球が覚えづらいと認識されているのが少し不思議だがDeep Dreamと同じくサンプル数がモノを言う世界なのでLaMemがこの画像を『地球』と認識できなかった可能性が高い。

image by

Getty Images/MIT

lightningM

iphone

image by

Getty Images

iphoneafter

真っ黒な背景に浮かぶ白いケーブルよりもiphoneに注目が集まるのは人間らしい。スコアも随分と高い。

image by

Getty Images/MIT

1

背景

image by

MIT

背景after

赤い領域が今までで一番広いのにスコアは著しく低い。やや不可解だがたしかに覚えづらい写真だ。

image by

MIT

やや納得のいきがたい部分もあったものの『注目する部分』か『大まかなスコア』のどちらかには『人間(自分)の感覚に近い』と思えるものが多かった。さらにサンプル数が増えればさらに精度は上がり、より人間の感覚に近いスコアやヒートマップが出力されるようになると思われる。

MITはこの技術を用いて既に覚えづらい画像の覚えやすい部分を強調して思い出しやすい画像を作ったり、逆に覚えづらい部分を強調して覚えづらいので注意を喚起するためのシステム『MemNet』を開発している。研究者はこの技術をさらに伸ばし、個人の物の見え方に特化したシステムを作る予定だ。

犬after

人間の感覚に近い?

image by

Getty Images/MIT

REFERENCE:

Deep-learning algorithm predicts photos’ memorability at “near-human” levels | MIT News

Deep-learning algorithm predicts photos’ memorability at “near-human” levels | MIT News

http://news.mit.edu/2015/csail-deep-learning-algorithm-predicts-photo-memorability-near-human-levels-1215

LaMem Demo

http://memorability.csail.mit.edu/demo.html