AI技術の有限会社ネオラクス

光計測技術から出発した当社は、最新のAI技術を駆使した様々な問題解決ソリューションを提供する会社へと進化を遂げ、AIによるチャットボット、衛星画像から建物の検出、時系列データの異常検知など、幅広いAI技術や統計解析技術を駆使し、世の中にある様々な問題解決に貢献して参ります。

製造業・非製造業に拘わらず、下記の応用例をご覧になって、「自社の問題解決にも応用できるのではないか？」という疑問や、「こんなデータがあるんだけど適用できるか考えて欲しい！」というご要望などをお持ちの方は、ネオラクス・メール送信フォームからお気軽にご相談ください。

また、AIサービスHomeでは、最新の生成系AIを積極的に活用し、様々なサービスを展開しています。その中のAIアバター生成サービスでは、Stable Diffusionを活用し、ご希望する性別、年齢、髪型、化粧、服装はもちろん、ポーズ、行動、スポーツの種類、写真などから、下記画像のようなAIアバターを生成することができますので、ぜひご活用ください。

目　次

衛星画像から建物の検出 - Image Segmentation
画像分類 - ImageClassification
姿勢推定 - PoseEstimation
時系列データの異常検知 - Anomaly Detection
時系列データの未来予測 - 航空機乗客数の予測
時系列データの未来予測 - 気温予測
StyleGAN3による顔認証画像の生成
許容範囲のある顔認証AIモデル - Face Authentication
AI アバター生成 - Stable Diffusion
AI 顔合成 - Face Fusion
AI 顔写真復元 - GFP-GAN

衛星画像から建物の検出 - Image Segmentation

ドイツのフライブルク大学（Freiburg）のOlaf Ronnebergerらが2015年に発表したU-Net: Convolutional Networks for Biomedical Image Segmentationを、衛星画像から建物を検出する問題に応用し、下図に示すように建物を検出しています。この例では、機械学習として与える教師データとして建物の情報を与えていますが、農地、道路、河川、森林などの情報を与えてやれば、その目的物を検出することができます。また、脳画像から異常部位を検出したり、インターネット画像から自社商品などの目的とする対象物を探し出したりする目的にも応用可能でしょう。この応用例の詳細は、衛星画像から建物の検出 - 画像セグメンテーションのページをご覧ください。

なお、二次元画像のセグメンテーション技術は 2024 年現在でも進化を続けています。この分野の研究の流れや、画像セグメンテーションに取り組む際の注意点については二次元画像のセグメンテーションのページにまとめていますのでご覧ください。

画像分類 - Image Classification

AIの精度検証問題としてよく使用される画像分類です。下図は、5種類の花の種類を分類した例です。'TensorFlow Hub'という場所にある、事前トレーニングされた分類器モデルを使用して転移学習していますので、比較的少ないサンプル数で訓練しても90%以上の精度で分類することが可能です。さらに、個別画像の予測精度もわかりますので、これを使用すれば100%に近い精度で分類することができるでしょう。この応用例の詳細は、画像分類 - 困難な課題で予測精度を上げるのページをご覧ください。

また、この問題で有名な課題MNIST(Mixed National Institute of Standards and Technology database)で、歴代22位に該当する評価誤差0.37%という値を達成するなど、様々なAI技術を開発しています。下記画像が評価ミスしたMNIST画像です（1万枚中の40枚）。MNISTの応用例の詳細は、画像分類 - MNISTで予測精度を試すのページをご覧ください。

姿勢推定 - Pose Estimation

姿勢推定とは、画像や動画から、人物の鼻、目、耳をはじめ肩、ひじ、手首、腰、ひざ、足首など17箇所のキーポイントを推定することにより、どんなポーズを取っているかを推定するAIです。特に、動画の姿勢推定では、キーポイントの座標の変化や相互の関係がわかりますので、被写体の各キーポイントの時系列情報を、理想とする教師データと比較することにより、歩く姿勢、走る姿勢、ダンスのテクニックなどの習得レベルや課題がわかりやすくなるでしょう。この応用例の詳細は、姿勢推定 - PoseEstimationのページをご覧ください。

時系列データの異常検知 - Anomaly Detection

従来の自己回帰分析（ARモデル）やARIMAモデルなどとは異なり、AIのautoencoderモデルを時系列データの異常検知に応用し、精度良く異常検知を行います。下記の例は、論文HOT SAX: Finding the Most Unusual Time SeriesSubsequence: Algorithms and Applicationsに基づき、心電図から「心室性期外収縮（premature ventricular contraction）」の異常を検知した例です。この例の詳細は、時系列データの異常検知 - 心電図の異常検知のページをご覧ください。

また、前記論文に基づき、NASAのマロッタバルブの時系列信号からの異常を検知した例を下図に示します。この例では、人では見逃がしがちな、正常状態では一山になっている部分が二山になっているという微妙な差異を見事に検出できています。この例の詳細は、時系列データの異常検知 - マロッタバルブの異常検知のページをご覧ください。

時系列データの未来予測 - 航空機乗客数の予測

季節性を含む時系列データとして良く知られる航空機乗客数の変化の時系列データを用いて、AI解析技術であるLSTM（Long Short Term Memory）モデル、統計解析手法であるARモデルやSARIMAモデルにより、12ヶ月先の乗客数の予測を行い、どのモデルも良好な予測結果が得られることを示しています。LSTMモデルの長所は多次元のデータが扱える点であり、短所は多数の実測値が必要であるという点です。この例の詳細は、時系列データの未来予測 - 航空機乗客数の予測のページをご覧ください。

時系列データの未来予測 - 気温予測

前項ではLSTM（Long Short Term Memory）モデルが、ARモデルやSARIMAモデルと同等の未来予測性能があることを紹介しました。ここでは、気象庁が公開している気温、風速、風向、天候などの情報を用いて東京の気温予測を行い、多次元の時系列情報を含む未来予測において、時系列解析技術としてよく引用されているLSTMモデルによる予測の二乗平均平方根誤差（RMSE）が2.42℃であったのに対して、シンプルな一次元CNNモデルによる予測のRMSEが2.25℃であり、必ずしもLSTMモデルによる予測が優れている訳ではないことを報告しています。

時系列予測は時系列予測：TensorFlowチュートリアルでも示されていますが、このページの予測精度も決して良いとは言えません。この例の詳細は、時系列データの未来予測 - 気温予測のページをご覧ください。CNNモデルは、多次元の未来予測が可能ですので、気温予測にとどまらず、需要予測や在庫管理などその応用範囲は広いでしょう。

StyleGAN3による顔認証画像の生成

表情が変化しても顔認証が可能な「許容範囲のある顔認証AIモデル」の可能性を探るため、StyleGAN3により画像を生成した。ここでは、ある画像から別の創造的な画像（画風スタイル変換画像や顔の表情変換画像など）を作成する技術としてのGenerative Adversarial Networks（GAN:敵対的生成ネットワーク）の発展形であるStyleGAN3を使用して、2枚の俳優画像から、その間を補補間する100～200枚の画像を生成し、その結果を本ページトップに動画として掲載した。この例の詳細は、StyleGAN3による顔認証画像の生成のページをご覧ください。

許容範囲のある顔認証AIモデル - Face Authentication

顔認証技術には様々な技術がありますが、本ページでは、笑顔や疲れた顔など、顔の状態が変化しても顔認証が可能な「許容範囲のある顔認証AIモデル」を試した。時系列データにおいて、データ数がある程度多い時にはAIモデルの予測精度が極めて高いことを、時系列データの未来予測 - 航空機乗客数の予測のページで述べましたが、これと同様の発想から、許容範囲のある顔画像を多数用意さえすれば、顔認証の許容範囲が広がるであろうという考えです。そして、その第一ステップとして、前項で2つの画像の間を補完する100～200枚の画像を生成しました。ここでは、これらのデータを使用し、生成画像と本人画像において、下記の通り100%正しい認証結果が得られた。この例の詳細は、許容範囲のある顔認証AIモデルのページをご覧ください。

AI アバター生成 - Stable Diffusion

テキストや画像から高品質な画像を生成することができる stablediffusion の紹介です。変分オートエンコーダにより、ガウシアンノイズを連続的に付与しながら、ピクセル単位の画像をより低次元の特長量を持つ潜在空間へと圧縮する順方向拡散過程と、ノイズを除去しながら潜在空間から画像に戻す逆方向拡散過程からなる、いわゆるU-Net 技術で構成されている。また、Lora(Low-Rank-Adaptation)学習という追加学習により、少ない計算量で新たな知識を追加することも可能になっています。

上記画像は、AIサービスHomeで展開している AIアバター生成サービスで得られた画像の一部です。希望する性別、年齢、髪型、化粧、服装はもちろん、ポーズ、行動、スポーツの種類、写真などから、AIアバターを生成することができますので、ぜひご活用ください。

AI 顔合成 - Face Fusion

画像や動画の人の顔を置き換えて「ディープフェイク」と呼ばれるニセ画像や動画を生成することが可能な FaceFusion の紹介です。基本的に、双方の画像の顔のキーポイント（特徴点）を認識し、これを巧みに置換する技術ですが、オリジナルのFaceFusionでは、解像度の高い画像を得ることができません。AI 顔合成サービスでは、この顔合成技術を一歩進めて、より高解像度の写真を合成できるようにしました。衣服の試着、似合う髪型のチェック、スリムになった理想の自分のイメージ写真の作成など、様々な用途にご活用ください。くれぐれもディープフェイク画像として悪用しないよう切にお願いいたします。

AI 顔写真復元 - GFP-GAN

従来のGAN(Generative Adversarial Networks:敵対的生成ネットワーク)技術やStable Diffusion技術では困難である忠実な顔の復元を可能にしたGFP-GAN(Generative Facial Prior - GAN) の紹介です。現実性と忠実性のバランスが取れた手法ですので、AI 顔合成サービスの高解像度化にも活用しています。どの程度ぼやけた顔写真が綺麗に復元できるのかについては、AI 顔写真復元サービスをご覧ください。

GFP-GANでは、下図に示す通り、衛星画像から建物の検出 - 画像セグメンテーションのページに示すU-Net構造の劣化除去モジュール（Degradation Removal）と事前学習済みのGANモジュールで構成されます。そして、これらの潜在空間は、潜在コード（latent code）マッピングと、Channel-Split Spatial Feature Transform(CS-SFT) 層により接続されます。そして、トレーニングにより、以下のような学習が行われます。

リアルなテクスチャ復元のための敵対的損失の学習
目や口の再構成損失の学習
顔の詳細をより強調するための顔コンポーネントの損失の学習
アイデンティティ維持の損失の学習

さらに、多少時間はかかるものの、GFP-GANをビデオの高解像度化に対応したモジュールVIdeo_Upscaler_by_GFPGANも提供されています。