AI技術の有限会社ネオラクス
製造業・非製造業に拘わらず、下記の応用例をご覧になって、「自社の問題解決にも応用できるのではないか?」という疑問や、「こんなデータがあるんだけど適用できるか考えて欲しい!」というご要望などをお持ちの方は、
ネオラクス・メール送信フォーム からお気軽にご相談ください。
StyleGAN3による俳優の顔認証モデルの生成例
また、
AIサービスHome では、最新の生成系AIを積極的に活用し、様々なサービスを展開しています。その中の
AIアバター生成サービス では、Stable Diffusionを活用し、ご希望する性別、年齢、髪型、化粧、服装はもちろん、ポーズ、行動、スポーツの種類、写真などから、下記画像のようなAIアバターを生成することができますので、ぜひご活用ください。
AIアバター生成サービスで生成したAIアバターの例
目 次
衛星画像から建物の検出 - Image Segmentation
8層U-Netモデルによる衛星画像(左)・建物の正解マスク(中)・予測マスク(右)の比較例
画像分類 - Image Classification
AIの精度検証問題としてよく使用される画像分類です。下図は、5種類の花の種類を分類した例です。'TensorFlow Hub'という場所にある、事前トレーニングされた分類器モデルを使用して転移学習していますので、比較的少ないサンプル数で訓練しても90%以上の精度で分類することが可能です。さらに、個別画像の予測精度もわかりますので、これを使用すれば100%に近い精度で分類することができるでしょう。この応用例の詳細は、
画像分類 - 困難な課題で予測精度を上げる のページをご覧ください。
転移学習による画像分類例
また、この問題で有名な課題MNIST(Mixed National Institute of Standards and Technology database)で、歴代22位に該当する評価誤差0.37%という値を達成するなど、様々なAI技術を開発しています。下記画像が評価ミスしたMNIST画像です(1万枚中の40枚)。MNISTの応用例の詳細は、
画像分類 - MNISTで予測精度を試す のページをご覧ください。
Encoder-Decoderモデルが評価ミスしたMNIST画像
姿勢推定 - Pose Estimation
姿勢推定とは、画像や動画から、人物の鼻、目、耳をはじめ肩、ひじ、手首、腰、ひざ、足首など17箇所のキーポイントを推定することにより、どんなポーズを取っているかを推定するAIです。特に、動画の姿勢推定では、キーポイントの座標の変化や相互の関係がわかりますので、被写体の各キーポイントの時系列情報を、理想とする教師データと比較することにより、歩く姿勢、走る姿勢、ダンスのテクニックなどの習得レベルや課題がわかりやすくなるでしょう。この応用例の詳細は、
姿勢推定 - PoseEstimation のページをご覧ください。
歩くモデルの姿勢推定例
ブレークダンスモデルの姿勢推定例
ブレークダンスモデルの部位座標間の相互相関関数解析例
時系列データの異常検知 - Anomaly Detection
心電図から心室性期外収縮の異常を検知した例
また、前記論文に基づき、NASAのマロッタバルブの時系列信号からの異常を検知した例を下図に示します。この例では、人では見逃がしがちな、正常状態では一山になっている部分が二山になっているという微妙な差異を見事に検出できています。この例の詳細は、
時系列データの異常検知 - マロッタバルブの異常検知 のページをご覧ください。
NASAマロッタバルブの時系列信号からの異常検知例
時系列データの未来予測 - 航空機乗客数の予測
季節性を含む時系列データとして良く知られる
航空機乗客数の変化 の時系列データを用いて、AI解析技術であるLSTM(Long Short Term Memory)モデル、統計解析手法であるARモデルやSARIMAモデルにより、12ヶ月先の乗客数の予測を行い、どのモデルも良好な予測結果が得られることを示しています。LSTMモデルの長所は多次元のデータが扱える点であり、短所は多数の実測値が必要であるという点です。この例の詳細は、
時系列データの未来予測 - 航空機乗客数の予測 のページをご覧ください。
LSTMモデルによる乗客数予測結果
ARモデルによる乗客数予測結果
SARIMAモデルによる乗客数予測結果
時系列データの未来予測 - 気温予測
前項ではLSTM(Long Short Term Memory)モデルが、ARモデルやSARIMAモデルと同等の未来予測性能があることを紹介しました。ここでは、
気象庁が公開している気温、風速、風向、天候などの情報 を用いて東京の気温予測を行い、多次元の時系列情報を含む未来予測において、時系列解析技術としてよく引用されているLSTMモデルによる予測の二乗平均平方根誤差(RMSE)が2.42℃であったのに対して、シンプルな一次元CNNモデルによる予測のRMSEが2.25℃であり、必ずしもLSTMモデルによる予測が優れている訳ではないことを報告しています。
一次元CNNモデルによる気温の予測結果
一次元CNNモデルによる気温の予測結果(2022/01/01~2023/07/20)
StyleGAN3による顔認証画像の生成
許容範囲のある顔認証AIモデル - Face Authentication
顔認証技術には様々な技術がありますが、本ページでは、笑顔や疲れた顔など、顔の状態が変化しても顔認証が可能な「許容範囲のある顔認証AIモデル」を試した。時系列データにおいて、データ数がある程度多い時にはAIモデルの予測精度が極めて高いことを、
時系列データの未来予測 - 航空機乗客数の予測 のページで述べましたが、これと同様の発想から、許容範囲のある顔画像を多数用意さえすれば、顔認証の許容範囲が広がるであろうという考えです。そして、その第一ステップとして、前項で2つの画像の間を補完する100~200枚の画像を生成しました。ここでは、これらのデータを使用し、生成画像と本人画像において、下記の通り100%正しい認証結果が得られた。この例の詳細は、
許容範囲のある顔認証AIモデル のページをご覧ください。
生成画像と本人画像を混合した顔認証AIモデルの評価結果
AI アバター生成 - Stable Diffusion
AIアバター生成サービスで生成したAIアバターの例
テキストや画像から高品質な画像を生成することができる
stablediffusion の紹介です。変分オートエンコーダにより、ガウシアンノイズを連続的に付与しながら、ピクセル単位の画像をより低次元の特長量を持つ潜在空間へと圧縮する順方向拡散過程と、ノイズを除去しながら潜在空間から画像に戻す逆方向拡散過程からなる、いわゆる
U-Net 技術で構成されている。また、Lora(Low-Rank-Adaptation)学習という追加学習により、少ない計算量で新たな知識を追加することも可能になっています。
上記画像は、
AIサービスHome で展開している
AIアバター生成サービス で得られた画像の一部です。希望する性別、年齢、髪型、化粧、服装はもちろん、ポーズ、行動、スポーツの種類、写真などから、AIアバターを生成することができますので、ぜひご活用ください。
AI 顔合成 - Face Fusion
画像や動画の人の顔を置き換えて「ディープフェイク」と呼ばれるニセ画像や動画を生成することが可能な
FaceFusion の紹介です。基本的に、双方の画像の顔のキーポイント(特徴点)を認識し、これを巧みに置換する技術ですが、オリジナルのFaceFusionでは、解像度の高い画像を得ることができません。
AI 顔合成サービス では、この顔合成技術を一歩進めて、より高解像度の写真を合成できるようにしました。衣服の試着、似合う髪型のチェック、スリムになった理想の自分のイメージ写真の作成など、様々な用途にご活用ください。くれぐれもディープフェイク画像として悪用しないよう切にお願いいたします。
AI 顔写真復元 - GFP-GAN
GFP-GANでは、下図に示す通り、
衛星画像から建物の検出 - 画像セグメンテーション のページに示すU-Net構造の劣化除去モジュール(Degradation Removal)と事前学習済みのGANモジュールで構成されます。そして、これらの潜在空間は、潜在コード(latent code)マッピングと、Channel-Split Spatial Feature Transform(CS-SFT) 層により接続されます。そして、トレーニングにより、以下のような学習が行われます。
リアルなテクスチャ復元のための敵対的損失の学習
目や口の再構成損失の学習
顔の詳細をより強調するための顔コンポーネントの損失の学習
アイデンティティ維持の損失の学習
さらに、多少時間はかかるものの、GFP-GANをビデオの高解像度化に対応したモジュール
VIdeo_Upscaler_by_GFPGAN も提供されています。