当社、Vitalify Asiaでは日々様々なAIの研究を行っています。

現在ベトナムに日本人チーフデータサイエンティストを始めとして、約10名のベトナム人AIエンジニアで構成された専属チームを有し研究を行っていますが、今回は、その中でもHOTな研究の内容をまとめ、要約をし、シェアしたいと思います。

1. クラウドファンディングのプロジェクト成功予測

クラウドファンディングのプロジェクトの成功確率をAIで予測するという研究プロジェクトに取り組みました。

・Mediumでの研究成果報告はこちらから

2009年に設立され、クラウドファンディングサイトの先駆け的存在とも言えるKickStarterのオープンデータ、36,812件 ( 成功案件7,496件、失敗案件23,320件 ) のプロジェクトを、中止案件や現在実施中の案件は省き、24,652件を学習データ、6,163件をテストデータとして使用しました。

1-1. 特徴量のカテゴリーについて

利用したデータの項目は下記になります。

■ 利用したデータ項目(特徴項目)
・Year:プロジェクト開始年
・Goal_amount_USD:達成目標金額
・Duration:キャンペーンの開始日から終了日までの時間
・ContentImageCount:プロジェクトのコンテンツで使用されるイメージの数
・ContentVideoCount:プロジェクトのコンテンツで使用されるビデオの数
・PackageCount:プロジェクト内の提供パッケージ数
・BackedProjCount:作成者の過去のバックアップされたプロジェクトの数
・CreatedProjCount:作成者が過去に作成したプロジェクトの数
・DescriptionWordCount:プロジェクトの説明に含まれる単語の数
・ContentWordCount:プロジェクトのコンテンツ内の単語の数
・RiskWordCount:プロジェクトのリスク部分の単語数 ≫ 各プロジェクトの公開情報
・MinPackageAmount:提供されるパッケージの最小USD額
・MaxPackageAmount:提供されるパッケージの最大USD額
・MeanPackageAmount:提供されるパッケージの平均USD額
・Pledged_amount_USD:キャンペーン終了後にプロジェクトが獲得した金額
・Category:プロジェクトのカテゴリー。例:アート、食品、技術
・ChildCategory:例、カテゴリーのアートに属するプロジェクト ← イラスト、パブリックアート、絵画、等
・Goal_currency:ゴール設定の通貨

結果として、テストデータ6,163件のプロジェクトにおいて、90.2%の精度で結果を正しく予測することに成功しました。

その中でもどんなデータ項目が成功に起因しているか、下記のデータ図から判断することが出来ます。

以下、今回のプロジェクトの結論です。(上位10の機能を分析しました。)

プロジェクト開始年(Year)はKickstarterプロジェクトの成功を予測する上で最も重要な要素であり、成功したプロジェクトはほぼ前年度になり、近年は失敗したプロジェクトが増えていることがわかります。

・作成者が過去に多数のプロジェクトをバックアップした場合、作成者は新しいプロジェクトで成功するチャンスが増えます。

RiskWordCountとGoalAmountは、Kickstarterプロジェクトの成功に悪影響を与える要因です。これは、これらの値が高いほど、プロジェクトが成功する機会の減少を意味します。

・より多くの画像があり、内容が詳細に説明されていれば、プロジェクトは成功しやすくなります。

・プロジェクトがカテゴリーFoodに属していれば、プロジェクトが成功する可能性が高くなります。

・上記の機能のほかに、短いキャンペーンのプロジェクトは成功のチャンスが増えるため、期間も重要です。

 

1-2. 今後研究で出来ること(できそうなこと)

・複数のクラウドファンディング・複数の案件カテゴリでの結果予想(案件カテゴリによって結果の精度が左右されそう)

・プロジェクト達成金額の最大化を行うためのアドバイス、達成期間の短縮(最大化)を行うためのアドバイスをアウトプット出来る可能性がある。

更に研究を進めることで、実導入できそうな新たな機能開発も可能性を秘めていますね。

 

 

2. X線画像の分類モデル

こちらは、GANを用いてX線画像に映る肺炎の視覚信号を、正常な肺、異常な肺をAIで検知し、分類するモデル構築に取り組みました。

・Mediumでの研究成果報告はこちらから
GAN for unsupervised anomaly detection on X-ray images.

・補足記事はこちら
GANs as a loss function.

2-1. GANについて

Generative Adversarial Networks(GANs)とはそもそも何なのか、
日本語で「敵対的生成ネットワーク」と呼ばれるものです。

敵対的生成ネットワーク (てきたいてきせいせいネットワーク、Generative adversarial networks、略称: GANs)は、2014年にイアン・グッドフェローらによって発表された教師なし機械学習で使用される人工知能アルゴリズムの一種であり、ゼロサムゲームフレームワークで互いに競合する2つのニューラルネットワークのシステムによって実装される

Wikipediaより

ディープラーニングの中でも最近注目されている技術の1つに、「敵対的生成ネットワーク」(Genera tive Adversarial Networks。以下、GAN)があります。
GANは生成モデルの一種であり、データから特徴を学習することで、実在しないデータを生成したり、存在するデータの特徴に沿って変換できたりします。
正解データを与えることなく特徴を学習する「教師なし学習」の一手法として注目されています。

今回の研究を行うに至った背景として、

・ヘルスケアのために用いる機械学習(ML)とディープラーニング(DL)は、学界と産業界の両方で非常に活発な研究分野であること。

・MLとDLは、現在は治療できない病気の新しい治療法を見つけるために医師や研究者を支援する方法として有望であり、医師やリサーチャーより速く、より良い成果をもたらすことができるため。

がありました。
大量のバランスのとれたデータや高品質のラベルを必要としないDLモデルは、医療システムにとってコストとスピードの面で非常に大きな利点があります。

 

プロセスとして、研究アプローチは以下の方法で行いました。

1. 正常なX線画像(陰性サンプル)のみを生成するようにGANを訓練する。

2. 異常を予測するときは、GANを使用して、正常画像と異常画像の両方の入力画像(負と正のサンプル)を再構成する。

3. 再構成、特徴マッチングおよび識別損失を計算する。

4. これらの統計値を使用して、正常なケースと異常なケースを区別する。

2-2. 結論として

上記の方法で、通常の画像を入力し、配列を出力するエンコーダー(Encoder)モデルと、ジェネレーター(Generator)があるGANを訓練し、訓練したGANを使って正常と異常に分類していくアプローチを行った結果、GANの機能を使用して異常を検出するという仮説を確認することはできませんでした。

しかし、GANの内部操作についてのいくつかの気付きがありました。
これはまた興味深いアプローチであり、この方向性でさらなる研究を進めていきます。

うまくいけば、研究を行う方法についてより良い考えやアイディアが生まれてくるかもしれません。


Vitalify Asia AIチーム

 

3. ベトナムでAI開発をするならバイタリフィへ

「自社サービスにAIを導入したい」「AIを導入し自社の効率化・コスト課題を改善したい」
という企業様はバイタリフィバイタリフィアアジアへお気軽にご相談ください。

当社では『AI導入をお考えの方に精度や効果を無料で確認してから開発の判断ができる』サービス「Mobile AI Lab」を運営しております。

 

NEW!! 2018.11.16
「業務へのAI導入を検討しているが、何からすれば良いんだろう?」
  そんな事業戦略担当者様!
  機械学習、ディープラーニングを用いてAIモデルデータを無料で作成。
  AIアプリを気軽に開発できるサービス『Mobile AI Lab』のお問合わせはこちら