折り紙を用いた形状認識と入力インターフェースの開発

　現在，ゲームで出来るようになった体験が様々であるが，従来のコントローラでは可能な体験が限られてしまうと感じた．例を挙げると，任天堂のWiiリモコンや銃の形を模したコントローラなど，直感的な操作を可能にするデバイスが開発されているが，可能な操作はポインタによる操作，コントローラを振る，ボタンを押す，トリガーを引くなどで限られてしまう．本研究では，コントローラなどのゲームへの入力デバイスをより抽象的な存在として捉え，ユーザーのクリエイティビティも付加できるようなシステムを目指した．具体的に述べると，木の棒がゲーム中では伝説の勇者の剣として扱える，ブロック遊びなどで飛行機に見立てて作った作品をゲーム中の実際の飛行機として再現できる，簡単な形をした絵をゲーム中に実際の物体に近い形状で再現させるなど，ユーザーの想像力を反映し，具現化されるようなシステムである．このようなシステムでは，ユーザーはあらゆる形のコントローラを手にする体験ができ，実際に想像した物を扱うような感覚で，より直感的な操作が可能になると考える．

　本研究では，図1.1のようにユーザーが用意した現実空間の物体をインターフェースを用いて仮想空間上に出力するシステムの構築を目的とし，その中で，現実空間の物体に，安価で加工が簡単な折り紙を用いて仮想空間上に作用させるシステムの構築を研究の目的とした．

図1.1 本研究の目指すシステム

　また，前述した目的を達成するためには，以下の2つの条件を満たす必要があると考える．

　本研究ではPythonを用いて折り紙の形状を学習させた後に，学習結果からUnity上で折り紙の形状を推論させ，推論結果からUnity上のゲームに入力信号を発生させ仮想空間に作用をさせた．

図1.2 本実験の構成図

1.2 本論文の構成

2 外部研究と関連技術

2.1 緒言

2.2 従来の研究

2.2.1 非定型物体をゲームのコントローラとして扱う技術

　非定型物体をゲームのコントローラとして扱う技術には，ソニー・インタラクティブエンタテインメント株式会社が米国の特許に出願した”SYSTEM AND METHOD FOR GENERATING USER INPUTS FOR A VIDEO GAME”[1]がある．この技術は，マーカーを持たない非発行物体を撮影し，輪郭検出や機械学習モデルの出力を用いて物体の姿勢を検出し，検出された物体の変化に応じた入力信号を生成する技術である．

2.2.2 2次元バーコードを用いた紙の折りたたみ構造の認識とそのモデル化

　三谷純氏の論文[2]では，20cm四方の紙にそれぞれの座標の情報を持たせた二次元バーコードを20x20で配置し，二次元コードのデコード，計算を行い折り紙の折り方の推定をしていた．

　実験の結果より，幼児を対象にした簡単な折り紙では80\%の割合で折り方の推定が可能であったが，伝承的に折られている複雑な形になると折り方の推定が可能であった割合は26%まで減少した．また，立体物には対応されないという制約がある．

2.3 関連技術

2.3.1 PyTorch

　PyTorchは，GPUやCPUを用いた深層学習用に最適化されたPythonのオープンソースの機械学習ライブラリである．

　特徴として，GPUによる強力なアクセラレーションを備えたテンソル計算が可能，テープベースの自動微分で構築されたディープニューラルネットワークである部分が挙げられる．[3][4]

2.3.2 RezNet

　RezNetとは，"Deep Residual Learning for Image Recognition"で提案された，残差ネットワークを複数個つなげたネットワークで構成された，入力データが残差ネットワークを通過した場合と通過していない場合の差分を計算し，それを用いて学習をするモデルである．

　PyTorchでは，18,34,50,101,152層のRezNetが用意されている．[5][6]

2.3.3 .pthファイル

　.pthファイルとは，PyTorchで出力された，学習済みモデルの学習済みパラメータである．

　torch.save()関数を用いて出力が可能であり，モデルの復元が容易なため，PyTorchでは推奨されている．[7]

2.3.4 ONNXファイル

　Open Neural Network Exchange(ONNX)とは，計算グラフモデル，組み込み演算子や標準的なテータ型が定義されているオープンソースのエコシステムである．

　PyTorchでは，torch.onnx.export関数でONNXファイルの出力が可能であり，UnityやTensorFlowなどの外部ソフトでの読み込みが可能である．[8][9][10]

2.4 結言

3 折り紙を用いた形状認識モデルの開発

3.1 緒言

　本章では，実験に使用した機材，Pythonを用いた折り紙の形状認識モデルの開発，実装を詳細に述べる．

3.2 使用機材

3.3 概要

　二次元マーカーを複数個印刷した紙で折り紙を作成し，Pythonを用いて折り紙の形状を認識しその折り紙が何を表しているかを推測する学習モデルを生成した．

　折り紙を用いた形状認識モデルの開発の構成図を図3.1に示す．

図3.1 折り紙を用いた形状認識モデルの開発

　3.4.1では，学習の前準備として二次元マーカーの生成，二次元マーカーを複数個配置した折り紙用の印刷データの作成，印刷をした紙での折り紙の作成を述べる．

　3.4.2では，2種類のカメラを用いた3.4.1で作成した折り紙の撮影，PythonとOpenCVを用いた複数種類の教師データの作成方法を述べる．

　3.4.3では，学習モデルで行った推論の精度測定の際に用いたテスト用画像データの作成方法を述べる．

　3.4.4では，PyTorchを用いたニューラルネットワークの作成方法を述べる．

　3.4.5では，3.4.4で学習された学習モデルである.pthファイルの出力，精度測定用の画像データを述べる．

　3.4.6では，3.4.4で学習された学習モデルであるONNXファイルの出力方法を述べる．

3.4 Pythonでの実装

3.4.1 学習の前準備

　折り紙用の紙に印刷するマーカーとして，OpenCVに含まれている二次元マーカーライブラリであるArUcoマーカーを用いた．

図3.2 ArUcoマーカーの一例

　片面にマーカーを20x20個，合計で400個配置し，裏面にも同様に配置して表裏合計で800個のマーカーを配置した紙を印刷した．

図3.3 マーカーを400個並べた紙

　上記で作成した紙を用いて，セミ(Cicada,図3.4)，ツル(Crane,図3.5)，花(Flower,図3.6)，パックンチョ(Pakkuncho,図3.7)，トラック(Truck,図3.8)の5種類の折り紙を作成した．

図3.4 作成したセミの折り紙

図3.5 作成した鶴の折り紙

図3.6 作成した花の折り紙

図3.7 作成したパックンチョの折り紙

図3.8 作成したトラックの折り紙

3.4.2 教師データの作成

　3.4.1で作成した5種類の折り紙と以下の表3.1に示すカメラ2種を用いて教師データを作成した．

表3.1 教師データ作成に用いたカメラの詳細

　作成した5種類の折り紙とカメラ2種を用いて以下の表3.2に示される8種類の教師データを作成した．

カメラ	解像度	フレームレート[fps]	外観
BSWHD06MWH	640x480	30
Movio M1034K M1034K-111L	1280x720	60

表3.2 機械学習の実験内容

　すべての教師データでは，カメラで折り紙を撮影する際にArUcoマーカーが最低でも1つ認識された画像のみを使用した．また，PyTorchのtransforms.Normalize関数でmean=[0.485, 0.456, 0.406],std=[0.229, 0.224, 0.225]で正規化をした．

　Training1では，カメラBSWHD06MWHで撮影した画像を用意し，認識されたマーカーの四隅を頂点座標として四角形の内側を塗りつぶすOpenCVのfillpoly関数を用いて教師データを作成した．この際に，認識されたマーカーのIDが紙の表面にあたる1～400番の場合は赤色，紙の裏面に当たる401～800番の場合は青色で色分けをした．