mixture-art@Q
技術+アイディア+世俗+なんとなく思ったこと、すべての融合がmixture-art
のび太とVRとARの素敵な谷間

数年前に書いたものの掘り起こし。

以前とあるARの専門家とお会いする機会があったのだが
「トンチンカンなこと言って失礼があっちゃいかんな」
と思い事前に『ARの何とやら』をある程度勉強しておいたわけだ。
# ワタクシ唯我独尊タイプに見えて案外気ぃ使えるオトコなのよ、コレが

しかし勉強していく過程でふとしたところで掴まってしまうのがエンジニアの性分。
「ARって将来VRと組み合わせて使われるのかなぁ〜」
と考えたが最後、、、以下の長文が完成する。笑

「ARとVRは共存できるのか?その意味は?」

思索迷路の幕開けである。

—————————————————————-

個人的にはVR(ヴァーチャルリアリティ)はずっと縁が近い分野で
大学院時代にいくらかかじったことから始まりオーディオの仕事をしていた際には
常に視界周辺をチラチラし続けた単語でもあるし、モノ作りの上では非常に重要な概念とも言える。
その道一筋数十年、のスペシャリストとは言えないがそれなりにモノを知っている。

一方、AR(Augmented Reality=拡張現実)はさほどモノを知らない。
近年になって注目されてきた技術だと言うのもあるけれど、
個人的にはそこまで意識的に扱ってこなかったというのが一番の理由だろう。
実際調べてみると概念自体は20世紀初頭のシロモノらしい。
(よく考えたな、電信機でモールス信号送ってたような時代に)

まずはこれらの定義や本質的な差について考えてみる。

<概念定義>

まずVRの概念は誰でも知っているだろうが一応正しておくと、
“実際の形はしていないか、形は異なるかも知れないが、機能としての本質は同じであるような環境を、ユーザの感覚を刺激することにより理工学的に作り出す技術およびその体系”(ベンリなwikipediaさんより引用)
ということで、簡単に言うと人工的に現実っぽいものを作り出す技術もろもろのことだ。

ARは基本的にはVRから派生して出てきた技術、というような言われ方をする。
例えば現実の画像に対して何か付加価値を持つような情報を追加で表示する、というものだ。

日本人なら誰にでもわかる例で言えばドラゴンボールのスカウター

他にもSFやアニメの世界では常に積極的に使われ続けてきた。
スタートレック、攻殻機動隊、電脳コイル、、、枚挙に遑がない。

近年ではAR技術はコンシューマレベルで用いられるようになっていて、
その代表格がセカイカメラ、最近ならPokemonGoだろう。

そして状況は芳しくないが市場で販売レベルの実物が動いていた例はGoogle Glass

などがある。

<厳密性>

一見すると、VRの方が「リアルを再現する」というストイックで厳格な目標を持っていて
対してARは「何かベンリなものを足してこうぜ、オーイエー」くらいの
ユル〜いカンジのようにも見える。

しかし、定義や活用範囲の点においてどちらの方が厳密かということについて考えると
実はARの方が制約は多い。

VRは例えば「視覚交換」とかもちょっとしたVRなわけだが、

[GIGAZINE] 男性と女性の肉体が入れ替わると一体どのような感覚なのかを仮想体験できる Gender Swap

まったく違うシロモノではちょっと前のネタで言うと「ソードアートオンライン」のような
一般家庭からファンタジーの世界にダイブしましょ、というものなんかも定義のうちではVRだ。

それに対してARは現実に対して何かしら価値を追加する、というアプローチなわけで、
『現実』というスタートラインを持っておかないと、わけがわからなくなる。
VRのように『現実ぽい』ものではなく『現実』が必要なのだ。

ARはVRから派生的に、、、という文脈に疑問を感じてしまうのはこのせいだ。
そもそも発想のベース自体が違うんじゃなかろうか、という気がする。

まぁここでは厳密性についての考察を進めると、
一方で『求める精度』という観点においては、やはりVRの方がより厳密だと言える。
VRで求めるところは『現実ぽいもの』だが、当然現実に近ければ近いほど好ましいのだから。

が、

しかし、

ロボット工学では有名な話として『不気味の谷』というものがある。
調べていくと我が母校の名誉教授サマが提唱したものだったなぁ。

<不気味の谷の整形美人>

『不気味の谷』とは簡単に言うと、人間にどんどん似せてロボットを作っていくと
ある程度までは似れば似るほど『親近感』がアップしていくのだが、
あるところで一気に「奇妙なもの」に見えるようになる、
という人間の認知の閾値やプライオリティの変化における習性を示している。
つまりこの親近感の劇的な低下を『谷』と称しているのだ。

不気味の谷の存在証明として日本人には最もわかり易くて身近なのは
映画版「ファイナルファンタジー」かもしれない。

アレ?ゲームやアニメに事例が偏ってる?ま、そこはヨシとして、

あれは当時爆発的な人気を誇ったゲームソフトの世界観をベースに、
非常に高い評価の中にあったFFシリーズのCGの技術を駆使して映画を作った、
というものだったが劇的にコケた。
理由は色々挙げられているがあくまで
登場人物に対して親近感が持てない → 映画のストーリーに没入できない → 面白くない
この一直線の上での『色々』だろう。本筋はこれで間違いがないと思う。

つまりFFのゲームにおけるビジュアルは
「ゲームにしてはすげぇリアル!」の良いカンジのレベルに達していたのだが
映画にする上でもう一息リアルの軸に突っ込んだところ、見事にこの谷に墜ちた、と。

言うに、物体の動きが不自然、肌の質感が云々、実際の人間の動きと微妙に違う、などなど
「そんなことFFのゲームでは指摘されてなかったじゃん!」と制作者が涙ぐむような
重箱の隅突つき大会が始まってしまうわけだ。

でも「ある程度のレベルを超えたものを見ると重箱の隅をつつきだす」
それが人間の心理であるらしい。

みな心当たりがないでもないだろう。
完璧に近いものほど細かい点を指摘して憂さを晴らしたくなるものだ。

これは確かベルギーのとある大学で行った実証実験らしいが、
「美人の条件」を定義する試みについて、ひとの顔のパーツの位置やサイズ、
形状などの情報を数値化して色々と実験を行っているのだ。
長年の研究の成果として
『その人がこれまでの生涯で見た顔のパラメータの平均値』
というものが理想の女性に限りなく近い、ということがデータとして見て取れていた。
平均=整っている
というコレ自体なかなか画期的な発見だ。

↓ 女子高生60人の平均顔、というシロモノ

それに加えて
A. 無作為抽出した一般女性たちの平均値を取ったもの
B. Aの唇をちょっと大きくしたもの
を作成し、男性たちにどちらが『好み』かのアンケートを取ったのだ。

結果はBの方が遥かに人気があったらしい。

Aは全員が一様に「美人だ」と答えたが、こと『好み』においては
「作り物っぽい」「怖そう」「表情が読めない」と全くもって好感度が低かった。
逆にBについてはみな「唇がセクシー」「キュートに見える」と好印象なのだ。
完璧に近い造作は気持ち悪くて、実はちょっとくらい外してる方がリアルで親近感がある。
人間は案外作り物の気持ち悪さを敏感に感じることができるんだなぁ。

コミュニケーションや商業用途において
「親しみ易さ」「好感」は重要なファクターであることは言うまでもない。
これもVRの前に立ちはだかる問題を再認識できる好例かと思う。

また音楽の世界では人間の感覚に関してこれまた興味深い話がある。

リズムというものは言うまでもなく一定である。
だが、本当に厳密に『一定』だと人間は気持ち悪いらしい。
人間はその生体運動のひとつとして『微妙に振動している』という事実がある。
じっとしているつもりでもじっとできていない、ということだ。
試しに鏡の前でじっとして見れば良い。
例えば肩の位置と背景に写る家具の位置をぴったり合わせて、、、と
自分がフラフラ振動しているのが見て取れるはずだ。
ひょっとしたらここまでやってもまだよくわからないかもしれない。
しかしそれは仕方ない、かなり微量な運動なのだから。
しかし前述のCGによる人物の描画においてはこれは実は非常に重要なポイントなのだ。
この微小振動が無いととたんに『作り物』になる。
これはバランスよく二足歩行を行うための体内のオートバランサによる運動の例だが、
人間の身体の中には各所にこのような揺らぎが存在する。そしてそれが心地よいのだ。
つまり『固定』は人間にとって心地悪くて『フラフラ』の方が案外気持ちよい。

また例えばドラムにおいて巧いドラマーは「音の粒が揃っている」と一般に言われる。
音には、振幅=音の大きさ、だけでなく様々なエンベローブ=音の輪郭のパラメータがある。
それらが毎回同じだと「粒が揃っている」と言うのだ。
これが作られた音の場合、ドラムマシーンなどの機械の音は厳密に毎回同じだ。
それを人間は敏感に感じ取る。気持ち悪いのだ。

「打ち込み系の音楽は好きになれない」
というひとはそれなりに多いと思う。私もそのひとりだ。
人間の感覚は非常に鋭敏で、それを騙しきるのはなかなか容易なものではないのだ。

<谷を飛び越える>

さて、目の前に底の見えない深い谷がある。

一番簡単な解決方法は『谷の方向に向かわない』ことだ。
先ほどのような人間の顔の例で言えば『デフォルメ』『マンガ化』だ。
日本のマンガ文化が高く評価されている理由のひとつに
「リアル表現」へ向かわなかったことが挙げられると思う。
仮に劇画タッチの作品だったとしてもキャラクターの目は通常よりつぶらで
身体のラインは実際の常識のレベルに忠実ではなく、何かしらのデフォルメが入っている。
理由は単純、その方がキャラクターに対する読者の好感度が上がるからだ。

2Dアイドルなんかもリアルな造形を狙った末の成功例は皆無だ。

一方、

当然『ストイックな解答』も存在する。
「谷を飛び越える」「谷の向こう側」と呼ばれるチャレンジだ。

完璧なヒューマノイドの構築を目指すヒト、さらにはその他VR技術を『推進するベクトル』に
自らの立ち位置を持ってきているひとにとっては極めて重要な指針だと言える。

谷の向こうに行くためには最初からそこに目標を設定しておかなければならない。
『最初から』というのが極めて重要な点だ。

例えば前述のFF例で言えば、エンジニアたちが2倍がんばって開発して
編集が10倍時間をかけたところで、結局のところ谷を乗り越えることはできない。
同じ轍を踏まないようにするためには『手法そのものからのテコ入れ』が必要なのだ。
例えば最近の映画で取り入れられているメジャーな手法はモーションキャプチャだ。
役者の身体に複数のポインター(特殊なカメラで見ると3Dで位置がわかるモノ)を取り付けて
それで演技をさせるのだ。そしてそのデータに対してCGで加工を加える。
元々の『動き』が人間本来のものだからそこに「奇妙さ」は存在しない。
映画『アバター』で非常に注目されたが(全編それでやったからね)
実際はむかーしからある取り組みだ。
私の理解が正しければ、この手のポインターは元々
スポーツ工学でフォームや筋肉の動きを研究するために開発されたのが最初だったと思う。

他の谷を越える試みの例では、、、
少々マニアックな話になってしまうがオーディオの例を挙げたい。

音響の領域では一時期から『伝達関数』というのものが盛んに言われるようになった。
細かい説明は以下の別ポストを参照して欲しいが簡単に言うと
「音がどういう風に聞こえるか」という現象の特徴量を関数化したものだ。

伝達関数ってなんすか?

その関数を利用して数値計算しオーディオ信号を生成することで
「2つのスピーカーから鳴らしているのにもっとたくさんスピーカーがあるように感じる」
とか
「狭い部屋で聴いてるのに、まるで大ホールで聴いているかのように感じる」
とか、典型的なVRの実現が可能だ。

これの発展系が一時期爆発的に広まった『ホームシアター』である。

そこそこ高品位なシアターシステムはただ単に5.1chとか7.2chで再生するだけではなく
この『伝達関数』を利用した『よりグラマラスな音場にするための加工』を入れてある。

しかしこの伝達関数、非常に厄介なもので、
例えばとあるメーカーは
「長年のホール音響測定のデータとノウハウを用いて」
とストイックにやっているが
他のメーカーでは
「音響シミュレーションの結果を用いて」
だったり、で、また他のメーカーでは
「そりゃエンジニアがなんとなく作ったもの。。。いや、ノーコメントで」
だったりする。

これはまさにVRの坂道を上っていくその道程に位置していて、
エンジニア自作 < シミュレーション << 測定データ
という形でスバラシさ階段を上がっていく。
で、例の谷が存在するのはカテゴリー的に言うと『測定データ』の中だ。
他の前者2つは「あーうんうん、それっぽくがんばってんね」というレベルであって
VRを名乗るにももうひとふんばり努力が必要なカンジ。
で、実測データを用いたものはやはり金も時間も労力もかけた分出来が良い。
しかし、データが良くてもその後の音声合成のレイヤでの取り扱いで
「かなり近いんだけど逆に気持ち悪い」ことが起こる。

例えばよく出来たホールというのはステージで演奏した音を四方八方へと反射させる。
つまり聴く人にとっても反射音というのは四方八方から聞こえて来るものなのである。
正面、横、後ろ、天井、床、、、etc.
しかし一般に言われるのはやれ「縦方向の反射はさほど重要ではない」だ
「床の反射はほぼ無視できる」だ、実用性を高めるために色々な妥協が入っている。

レスポンスを上げるために処理量を減らす必要がある、
スピーカーを天面に配置するのは現実的ではない、、、
もろもろ。言いたいことはわかる。

しかし人間の感覚というのはかなり鋭敏で、聴覚はその最たるものだ。(と思う)
そういう妥協を人間の感覚は見逃さない。
すぐさま「コレ変だぜ」信号を送って来る。
なんと人間は音の到来方向に関して1度の角度差を認識可能だというのだから大したものだ。

『コレ変だぜ』の例では、とある友人が
「Skypeで話すと目線が合わないこと」を問題点として提起していた。
これはもっともな話で『便利さ』の裏に隠れた『リアルさ』の損失な訳だ。
こういうものを人間の感覚は逃さない。

<VRとARの両立性 〜 思考実験 〜>

しかしこの谷、ARにとっては一瞥に値しないものだと思う。

ARは現実に対して付加情報を如何に効率的に利用価値があり
かつ気持ちいい形で提供するか、というのがポイントだ。

なので谷の出番はない。

リアルの中に一部の『あからさまな作り物』
それは人間の『親近感』『好感』をどうコントロールするのか?

そうすると「VRの推進とARの価値向上は両立するのか?」という疑問が発生する。

例えばこんな思考実験をしてみよう。

Google Glassのような付加情報を表示可能なメガネをつけていたとする。
Skypeで友人と会話しているシーンを想定しよう。
そこにウィンドウ表示ではなく背景と同化した形で相手が表示されたとする。
「まるでその場にいるように」だ。
それはVRの技術の粋を尽くしたものでもう本物としか思えないクオリティーだったとする。
例えばこれらの状況でARの用途を想定してみよう。

case A :「2人で明日のプレゼン資料の読み合わせをしよう」
→ 双方のモーションを検出してページめくりやハイライト、検索ができるドキュメントを表示

case B : 「いま本屋に来てるんだけどどれ買おうか迷っててさ」
→ あたかも隣にいるように表示された相手方が本を指差しながら説明してくれる
  その時同時に相手方が持っている情報だったりネットから抽出された情報が
  ポップアップウィンドウのような形式で表示される

case C :

、、、実はよくわからなくなってきた。
何が嬉しいのか?何が気持ちいいのか?何に価値があるのか?

CaseAでは『まるで目の前に打ち合わせ相手がいるような』バーチャルと、
『仮想的なミーティング資料の紙をめくったりできる』バーチャルと、
そこに『ハイライトや検索』という強化現実を入れてみた。

CaseBでは『友人が隣に来てくれたかのような安心感』のバーチャルと、
『情報をネットから取ってきてポップアップ表示』という強化現実のミックス。

もはや一軸では語れなくなっているような気がする。

答えは恐らく『No』ではないだろうか。
VRの究極は谷の向こう側にあり、それは人間の無意識まで手を突っ込み
ぬかみそかき混ぜるようなことをして突き進まなければならない。
超ストイック。

それに反する、というと失礼なのか尊大なのかわからないが
ARの究極は常に実用性の軸にある。
現実は現実以上でも以下でもなく、付加価値を構成するのはそれ以外、
『非現実』『強化現実』によるものだ。
ユーザーの注目はむしろそこへと動く、
その際仮にその場にVRが存在したとしたら間違いなくその価値は貶められる。
谷の手前側にバックする。坂を転がり落ちる。

<ARはリアルを補完する?VRがリアルを補完する?>

ここまで述べてきた両者の差などを総括するとこんな風に言えると思う。

AR = 実用性 + ちょっとしたアート(発想)

VR = 自然科学 + ちょっとしたファンタジー(空想)

確かにかぶるところも多いのだけど、やはり『派生』や『発展系』などでは片付けられない
隔たりがあるように感じる。

したがって両者の両立は最終的にはどっかの谷に落ちる徒労のように思える。
やはりどちらかに進むのならばコンセプトをハッキリと割り切って進まなければならない。
場合によっては片方を優先し、片方を犠牲にするような決断もしかりだ。

<それと、ドラえもん>

最近なんでもドラえもんの秘密道具でものづくりを考えるようにしている。

ほとんどの『少年の夢』はドラえもんに詰まっているのだ。(断言)

現存する全てのニーズやウォンツは大抵秘密道具で表現可能なのだ。(断言)

さて、ところが本文のVRやAR、

これらは『ドラえもんには全く登場しないシロモノ』だということに気付く。
(私の知っている限り、という非常にテキトーな範囲だが)

びっくり。

案外ビックリ。

存外びっくら。

でも答えは簡単なのだ。

どこにでも一瞬で行くことができて、時間も行ったり来たりできて、
人間の中身の交換もできて、モノが大きく出来たり小さく出来たり自由自在で、
竹とんぼを頭につけたら空飛べちゃうような時代には、VRもARも不要だからだ。

つまり、本来満たされるべき人間のウォンツや理想はVRやARのさらに向こう側にある。

そうしたら道のりは長い。

谷間、谷間、そこにも谷間、あそこにも谷間だ。目眩いがする話だ。

でも目指すところがそこにあるのなら、あくまで目標を高く持ち、
全ての谷間を一足飛びにホップステップジャンプで八双飛びに飛び越える覚悟で
臨まなければならない。いや、そうでなければつまらない。

ということでタイトルの理由がオチたと思うのでこれにて終了。