|
|
|
|
堀川 翔平 |
(一社)浄化槽システム協会講師団 |
(月刊浄化槽 2024年11月号) |
|
|
本稿は、浄化槽管理業務におけるAI技術の活用可能性を探るため、生成AIおよび画像認識AIの基本技術とその適用事例を考察したものである。特に、物体検出モデルであるYOLOv8を用いて浄化槽内のバルブを検出する実験を行い、その結果を報告する。また、ファインチューニングやデータ拡張などの技術的手法についても詳細に説明し、浄化槽業界におけるAI導入の効果と課題を明らかにした。今後、AI技術が浄化槽管理業務に与える影響とその展望についても述べる。
Key Words: 浄化槽、生成AI、ChatGPT、画像認識、物体検出、YOLO、ファインチューニング |
|
|
|
|
1.はじめに
(1)直近のAIについて
本稿は、2024年8月14日から15日にかけて執筆されたものである。冒頭に何故このようなことを書いたかというと、AI技術はまさに“日進月歩”でトレンドが変化し続けており、本稿で論じる技術やサービスの内容は執筆時点のものであることを強調しておく。引用された情報は変わらないが、サービスや仕様の変更がある可能性があるため、その点に留意いただきたい。
さて、2022年はAI技術の大きな転換点となった年であり、「Midjourney」や「Stable Diffusion」といった画像生成AIに始まり、「ChatGPT」に代表される大規模言語モデル (LLM)を用いたAIサービスがローンチされた。生成AI技術・サービスは急速に普及し、多くの企業がこれらの技術の活用方法を模索し、ビジネスの加速を目指している。
特に「ChatGPT」などのLLMは、自然言語処理の分野で革命的な影響を与え、チャット形式のAIサービスが急速に広まった。国内外の企業がこの分野において積極的に開発を進めており、「ChatGPT」 (OpenA) 、「Gemini」 (Google) や、「Llama」 (Meta) に代表されるオープンソースのLLMも数多く存在する。
|
図1 ChatGPTのAPI料金の変遷 |
サービス利用料やAPIの料金の低下も、各企業が自社サービスにAIを導入する一因となっている。例えば「ChatGPT」は無料で利用可能であるだけでなく、個人レベルでカスタマイズされた「GPTs」というチャット機能も提供されている。さらに、API 注1) 利用料金もアップデートのたびに安価になっており、最初期に比べてモデル性能が向上しているにも関わらず、料金はおよそ十分の一にまで低下した (図1) 。
しかしながら、日本でのAI利用率は各国と比較して依然として低い現状である。総務省のアンケート結果 2) によると、個人利用(「使っている(過去使ったことがある)」)の割合は9.1%に過ぎず、中国 (56.3%) 、米国 (46.3%) 、英国 (39.8%) 、ドイツ (34.6%) と比べて大きな開きがある。また、企業の利用率においても、“活用する方針を定めている”(「積極的に活用する方針である」、「活用する領域を限定して利用する方針である」の合計)と回答した企業は日本では42.7%にとどまり、米国、ドイツ、中国で80%以上の企業が同様の方針を示していることと比較して、低い水準にある。
(2)浄化槽におけるAIの現状
浄化槽や水処理の分野でもAI技術の利用が進んでおり、近年の日本水環境学会では、AIに関する研究発表例えば 3), 4) が多数行われている。また浄化槽研究集会でもIoTの更なる発展としてAI活用を示唆する発表 5)もあった。しかし、現時点で実際のサービスとして浄化槽管理にAIが導入されている事例は他業界と比べるとまだ少なく、普及には時間を要すると考えられる。
一方で、今後の技術革新にAI活用は必然的であり、維持管理や自動制御(IoT、デジタルツイン)の分野でAI技術の導入が進むことで、浄化槽管理業務へのAI浸透が期待される。
そこで、本稿ではAI(生成AI及び画像認識AI)の基礎知識に触れつつ、浄化槽におけるAI技術活用の可能性について論じる。 |
|
2.生成AIについて
(1)直近の生成AIの流れ
a) 概要
生成AIは、2022年から急速に進化を遂げ、多くのユーザを獲得している。特に「ChatGPT」 (OpenAI) や「Gemini」 (Google) 、「Claude」 (Anthoropic) などのサービスは、利用者に高い評価を受けており、最近では自然言語生成の分野だけでなく、画像や音声を含めたマルチモーダルAIへの期待として重要な役割を果たしている。2023年は『生成AI元年』と呼ばれ、LLM(大規模言語モデル)の開発競争が激化する中、これらのモデルは、2022年と比較して性能が大幅に向上し、無料または低コストで利用できるようになっている。
API料金の低下も、生成AIの普及を後押ししている。2023年におけるAPIサービスの開放当初、GPT-3.5の利用料金は高額であったが、現在では最新モデルであるGPT-4oやGPT-4o miniの利用料金が大幅に引き下げられている。また、利用可能なトークン 注2) 数も大幅に増加しており、以前はごく少数に限られていたトークン数が現在では飛躍的に増大し、より多くのデータを処理できるようになった。これにより、生成AIの活用範囲がさらに広がったといえる。
このような生成AIの進化の背景には、ニューラルネットワークの発展がある。特に「Attention Is All You Need 6)」で発表された「Transformer」技術は、生成AIの飛躍において重要な役割を果たしている。この技術は、従来のリカレントニューラルネットワーク(RNN)の課題を克服し、自然言語処理を含む多くの分野で大きな影響を与えた。
したがってこの章では、ニューラルネットワークやRNNの基本技術に触れつつ、transformerへの発展、そしてChatGPTの使い方とRAG技術について論じる。
b) ニューラルネットワーク基礎
ニューラルネットワークは、現代の機械学習技術の根幹をなすモデルであり、その構造は人間の脳の神経回路を模倣したものである。ニューラルネットワークは、入力層、隠れ層(中間層)、および出力層から構成され、各層のニューロンが前の層のニューロンと結びついている。この結びつきは「重み(weights)」と呼ばれ、学習過程で調整される。
以下より簡単にデータ伝達のプロセスを説明する。
入力データxは入力層に供給され、各層のニューロンを順次通過していく。各ニューロンjにおいて、前の層のニューロンiからの入力は、重みwijを掛け合わせて伝達され、さらにバイアス項bjが加算される。この総入力は次のように表される。
この総入力zjに対して、活性化関数 (Activation Function) が適用され、出力ajが決定される。
一般的な活性化関数としては、シグモイド関数やReLU (Rectified Linear Unit) 関数が使用される。例えば、ReLU関数は以下のように定義される。
このプロセスが隠れ層から出力層まで繰り返され、最終的に出力層で得られる出力がニューラルネットワークの予測結果となる。
次に学習フェーズにおける逆伝播のフローについて説明する。
ニューラルネットワークの学習は、誤差逆伝播法(Backpropagation) を用いて行われる。まず、出力層で得られた予測結果と実際のラベルとの誤差を計算し、その誤差を基に重みとバイアスを更新する。誤差関数(損失関数)としては、例えば二乗誤差(Mean Squared Error)がよく用いられる。
ここで、yiは実際の値、は予測値である。この誤差Eを最小化するために、勾配降下法(Gradient Descent)を用いて重みwijとバイアスbjを更新する。すなわち、重みとバイアスの更新は、学習率ηを用いて次のように行われる。
このプロセスをニューラルネットワークの全層で繰り返し、誤差が最小化されるまで学習が進む。
c) RNNの基礎
RNN(リカレントニューラルネットワーク)は、シーケンスデータや時系列データを処理するために設計されたニューラルネットワークの一種である。RNNの特徴は、隠れ層の出力が次のタイムステップの入力として再利用されるリカレント構造にある。これにより、RNNは時間的な依存関係を考慮しながらデータを処理できる。
以下にRNNの構造と動作を簡単に説明する。
RNNでは、各タイムステップtにおいて、入力xtと前のタイムステップの隠れ状態ht-1が結合され、現在の隠れ状態htが計算される。これにより、過去の情報が記憶され、次のステップに伝達される。
RNNの隠れ状態htは以下の式で計算される。
ここで、WhとUhは重み行列、bhはバイアス、σは活性化関数である。
出力ytは、隠れ状態htを用いて次のように計算される。
以上の通り、RNNは時間的な依存関係をモデル化する能力を持つが、長期依存性の問題や計算効率の低さといった課題が存在する。
長期依存性の問題とは、RNNが長いシーケンスにおいて、過去の情報を十分に保持できないことを指す。この問題は、勾配消失問題 (Vanishing Gradient Problem) として知られ、ネットワークが深くなるにつれて、勾配が消失し、学習が困難になることで発生する。また、計算効率の低さもRNNの課題である。RNNは、シーケンスを逐次処理するため、並列処理が困難であり、特に長いシーケンスに対しては計算時間が増大する。このため、大規模なデータセットやリアルタイム処理には不向きである。
これらの課題を克服するために、新しいアーキテクチャとして開発されたのが「Transformer」である。
d) Transformer技術の背景
ransformerは、RNNの持つ長期依存性の問題や計算効率の低さを解決するために開発された革新的な技術である。Transformerは、自己注意機構(Self-Attention Mechanism)を中心としたアーキテクチャを導入しており、これによりシーケンス全体を並列に処理することが可能となった。これにより、各要素間の関係性を効率的に捉え、RNNに依存せずとも高精度なシーケンス処理が実現できるようになった。
自己注意機構 (Self-Attention Mechanism) とは、シーケンス内の各要素が他の要素とどのように関連しているかを計算し、重要度を判断するメカニズムである。これにより、Transformerは長期依存性を効果的に捉えることができ、シーケンス全体を一度に処理するため、計算効率が飛躍的に向上した。
Transformerの登場により、自然言語処理におけるLLMの性能が劇的に向上し、結果として生成AIがさまざまな分野で活用されるようになった。従来のRNNに代わって、Transformerは自然言語処理のデファクトスタンダードとなり、現在の生成AI技術の基盤を形成している。
次節では、LLMサービスのメインストリームである「ChatGPT」を中心に、その利用方法についてさらに詳しく述べる。
(2)ChatGPTとRAGについて
a) ChatGPTについて
最近のChatGPTは、無料版であっても画像生成やPDFファイルの分析、「Code Interpreter」と呼ばれるプログラミングを用いた解析が可能であるなど、多様な機能を提供している。特にファイル添付機能が追加されて以来、利用者の活用シーンが大幅に拡大している。
例えば、PDF添付による内容要約や質疑応答、画像添付による画像分析(GPT-4 Vision)は、ビジネスや研究の現場で非常に有用である。また、「Code Interpreter」によるコーディング処理技術も、データ分析や自動化タスクにおいて強力なツールとなっている。
これらの機能追加により、GPT-4oのような高機能LLMは、テキストだけでなく、画像や音声をも処理できる「マルチモーダルAI」としての期待が高まり、より広範で汎用性の高いモデルへの進化が予想される。
また、LLMの開発が進むにつれて、各社は自身のドメイン知識能を取り入れることがより重要となっている。現在のトレンドの一つとして、「RAG」 (Retrieval-Augmented Generation) があり、この技術を活用した多くの研究が進行している。
b) RAGについて
「RAG」 (Retrieval-Augmented Generation) は、LLMに外部データを取り込み、それを元に生成結果を補完する技術である。自社データを「ChatGPT」などのLLMで活用する際に、RAG技術が有効となる。
具体的には、RAGは大きく「ベクトルデータ化(embedding化)」、「検索」、「回答生成」の3つのステップで構成されている。RAGを利用することで、AIモデルに学習外データを与え、それをリアルタイムで利用することが可能となり、従来のファインチューニングやプロンプトエンジニアリングに比べ、効率的かつコスト効果の高い手法となっている。
ChatGPTにおいても、RAG技術を活用することが可能であり、例えばPDFや自社データをAIに知識として提供し、PoC (Proof of Concept) 注3) を迅速に進めることができる。このような技術を活用することで、企業はより柔軟にAIを導入・運用できるようになる。
(3)浄化槽維持管理要領書を使ったRAGの検討
本章における結果において、ページの関係上すべてを記載することが難しいため、以下のURLもしくはQRコード(図2)を参照していただきたい。
まずChatGPTの性能の確認のために以下のプロンプトを入力してみる。
「水創り王型の維持管理で気を付けることは?」
すると浄化槽もしくは水処理機器全般でいえるような一般的な回答が返ってきた。これはChatGPTが水創り王型の詳細を学習しておらず、確率的な正解を導出した結果に起因する。よって本章ではこの回答精度を高めることを目標とする。
さて、RAG実装に向けては、前節で論じたように「ベクトルデータ化(embedding化)」が最初のステップとして考えられる。そこから作成されたベクトルデータはベクトルDBなどのデータベースに保存され、ユーザのクエリに対してcos類似度 注4) などを使って、類似の文章を検索するフローをとる。
しかし、ここでは実装を簡便にするため、ChatGPTの標準機能であるファイル添付機能を用いて、添付されたドキュメントの知識を持たせてChatGPTに返答してもらう。
添付方法はとても簡単で、チャット欄にドキュメントファイルをドラッグ&ドロップするか、クリップボタンを押してエクスプローラー操作により自身のファイルを選択することで添付することができる。
今回添付するファイルはニッコー製品である「水創り王型」及び「浄化王型」の維持管理要領書とする。なお、本ドキュメントにおいてはニッコー株式会社のHP 6) より参照されたし。
ファイルのアップロードが終わったら次にチャット欄に資料について聞きたいことを入力する。ここではほどのプロンプトに加えて、浄化槽型の情報も含めたプロンプトを用意した。
「水創り王型の維持管理で気を付けることは?」
「水創り王と浄化王の容量の違いを教えて」
前者の結果で特筆すべきは、回答に「第1接触ばっ気槽」など水創り王型特有の単語が含まれた点である。これにより、ChatGPTが持ち合わせていない知識が添付された資料により付加されたことが分かる。
また後者の結果では正確にドキュメントの数値を読み取り、両機種の容量の違いを示すことができた。なお「容量」ではなく「寸法」の違いを聞いたところ、両機種の「全幅」寸法で間違いが発生した。これは、ドキュメントの表形式が結合されていることに起因しており、読み取り精度の課題といえる。一方で、ドキュメント側の課題ともいえ、表形式の整理方法や情報の示し方を工夫することで、現状のAIでも十分な精度を担保できると考えられる。
最後に、ChatGPTの「GPTs」機能を用いて、水創り王型及び浄化王型の維持管理要領書の知識をもったチャットボット「ニッコー浄化槽GPT」をテスト作成したので、興味がある人は以下のURLもしくはQRコード(図3)にアクセスの上、確認していただきたい。
|
|
3.画像認識AIについて
(1)概要と種類
画像認識AIは、コンピュータビジョンの一分野であり、画像データを解析して特定のタスクを遂行する技術である。この分野には、画像分類、物体検出、セグメンテーション、画像生成、画像キャプション生成、画像検索、画像超解像、スタイル転送など、さまざまなタスクが含まれる。それぞれのタスクは異なる技術的アプローチを必要とし、異なる応用分野で利用されている。
a) 画像分類
画像分類は、与えられた画像をあらかじめ定義されたカテゴリのいずれかに分類するタスクである。例えば、動物の画像を犬、猫、鳥のいずれかに分類することが典型的な例である。この分野では、CNN(畳み込みニューラルネットワーク)が広く使用されており、AlexNet 7) やResNet 8) といったアーキテクチャが代表的である。応用分野としては、商品分類、自動車のモデル識別、医療画像診断などが挙げられる。
b) 画像認識
画像認識は、画像内に存在する複数の物体を検出し、その位置とクラスを特定するタスクである。物体ごとに境界ボックスを描画し、何の物体であるかをラベル付けする。YOLO (You Only Look Once) t 9) 、Faster R-CNN t 10) 、SSD (Single Shot Multibox Detector)t 11) などのモデルが広く用いられており、自動運転車の障害物検出、監視カメラによる不審物検出、顔認識などで活用されている。
c) セグメンテーション
セグメンテーションには、セマンティックセグメンテーションとインスタンスセグメンテーションが存在する。
セマンティックセグメンテーション (Semantic Segmentation) とは、画像内の各ピクセルにクラスを割り当てるタスクであり、すべてのピクセルが特定のクラスに分類される。U-Net 12) やDeepLab 13) などのモデルがよく使用され、医療画像解析や自動運転、画像編集などの分野で活用されている。
またインスタンスセグメンテーション (Instance Segmentation)は、同じクラス内でも異なる個別の物体を区別し、個別にセグメント化するタスクである。例えば、複数の車が写った画像に対し、それぞれの車を別々に識別する。Mask R-CNN 14) などのモデルが使用され、自動運転やロボットビジョンなどで活用されている 。
d) 画像生成
画像生成は、ニューラルネットワークを用いて新たな画像を生成するタスクである。既存の画像のスタイルを模倣したり、まったく新しい画像を作成することが可能である。GAN(生成敵対ネットワーク) 15) やDiffusionモデル 16) が代表的な技術であり、アート生成やゲーム開発、デジタル広告、データ拡張などの応用がある。
e) 画像キャプション
画像キャプション生成は、画像の内容を自然言語で説明するキャプションを生成するタスクである。Encoder-Decoder 17) モデルやAttention機構を備えたトランスフォーマーモデルが使用され、自動キャプション生成や視覚障害者支援、デジタルマーケティングで利用されている。
(2)CNNについて
画像認識AIにおいて、最も重要な技術の一つがCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)である。以下に、CNNの技術的変遷と、それぞれの技術課題を解決するための進展を簡単に示す。
a) 1980年: Neocognitron 18)
Neocognitronは、畳み込み層とプーリング層を持つ初期の人工ニューラルネットワークであり、視覚パターン認識に使用された。位置や形状の変動に対して頑健な認識を行うことができ、人工知能が画像を処理する際の基礎となった。
b) 1998年: LeNet 19)
LeNetは、手書き数字認識に特化したモデルであり、畳み込み層とプーリング層を用いてピクセル情報を効率的に処理した。これにより、計算コストを抑えつつ、画像の特徴を効果的に学習する方法が確立された。
c) 2012年: AlexNet
AlexNetは、ImageNetコンペティションで大成功を収めたCNNモデルであり、ReLU活性化関数とDropoutを活用することで層を深くし、性能を向上させた。特に、「勾配消失問題」や「過学習」を克服し、深層ネットワークの学習を可能にした。
d) 2014年: VGGNet 20)
VGGNetは、非常に深いCNNアーキテクチャであり、3x3の小さなフィルタを重ねることで高精度な画像認識を達成した。一方で、計算リソースの消費が増大するという新たな課題も生じた。
e)
2016年: ResNet
ResNetは「残差ブロック」を導入し、非常に深いネットワークでも学習が可能となるよう設計された。これにより、深層ネットワークにおける「勾配消失」や「勾配爆発」の問題を解決し、モデルの深さを増しても高精度を維持できるようになった。
f) 2016年: YOLO
YOLO(You Only Look Once)は、物体検出に革命をもたらしたCNNベースのモデルである。従来の物体検出モデルは、画像全体を複数回にわたってスキャンして物体を検出していたが、YOLOは画像全体を一度に処理し、物体の位置とクラスを同時に予測する。このアプローチにより、リアルタイムでの物体検出が可能となり、精度と速度の両方を大幅に向上させた。
g) 2017年: DenseNet 21)
DenseNetは、各層がすべての前の層からの特徴マップにアクセスできるように設計され、特徴再利用を促進した。これにより、計算リソースを効率的に使用しながら、より少ないパラメータで高性能を実現した。
h) 2020年: Vision Transformer(ViT)
ViTは、画像認識タスクにTransformerアーキテクチャを適用したモデルであり、画像をパッチに分割し、それぞれをTransformerで処理する。従来のCNNが苦手とするグローバルな依存関係の学習を克服し、特に大規模データセットで優れた性能を発揮している。
i) 現状と課題
CNNは依然として画像処理の主要な手法として広く利用されているが、近年ではトランスフォーマーモデルの台頭により、従来のCNNに代わる新たなアプローチが模索されている。特に、CNNが局所的な特徴を捉えるのに優れている一方で、グローバルな依存関係を捉えるのが苦手である点が課題として残っている。今後は、CNNとトランスフォーマーを組み合わせたハイブリッドモデルや、新たなアーキテクチャが研究される可能性が高い。
(3)浄化槽画像での物体検出(バルブ検出)の検討
画像認識AIはカメラ設備や写真データがあれば実装できることから非常に製造業との相性が良いといえる。これは浄化槽業界においても同様のことがいえ、維持管理写真の画像分析や製造ラインにおける異常検出、浄化槽内の常時監視など、適用範囲は多岐にわたる。
また、浄化槽業界では、管理業務の多くが人手による点検や監視に依存している。このため、作業の効率化や精度の向上が課題となっている。特に、浄化槽内のバルブや機器の状態監視においては、異常の早期発見が求められるが、人手による点検では限界がある。AI技術、とりわけ画像認識技術の導入は、これらの課題を解決し、管理業務の自動化や精度の向上を実現する可能性が高い。
そこで本章では、画像認識タスクの中でも物体検出AIモデルを用いて、画像内のバルブ検出が可能かどうかを検討する。これにより、AI実装の流れや結果考察の一助になればと願っている。
なお本章の実装データはページの関係上すべてを記載することが難しいため、以下のURLもしくはQRコード(図4)を参照していただきたい。
a) AI実装の流れ
以下の流れでAI実装を検討する。
@AIモデルの選定
AAIモデルの現状性能
Bアノテーション
Cファインチューニング
DAIモデルの評価
b) AIモデルの選定
本来であればPoC (概念実証)の過程で、さまざまなモデルやアーキテクチャを試行し、タスクに最適なモデルを選定するべきである。しかし、今回は簡便のため、YOLOモデルを採用する。
YOLO (You Only Look Once) モデルは、物体検出において高い効率性と精度を誇るCNN (Convolutional Neural Network) ベースのアルゴリズムである。YOLOは、画像全体を一度に処理し、物体の位置とクラスを同時に予測する点が他の物体検出モデルと異なる特徴である。具体的には、YOLOは画像を固定サイズのグリッドに分割し、各グリッドセルが物体を含んでいるかどうかを予測する。
従来の物体検出モデルは、画像を複数のスケールや領域でスキャンして物体を検出するため、計算コストが高く、処理速度が遅くなる傾向があった。しかし、YOLOは画像全体を一度に処理するため、リアルタイムでの検出が可能となり、製造業や監視システムなど、即時性が求められる応用に適している。
YOLOの代表的なバージョンには、YOLOv3、YOLOv4、YOLOv5、そして最新のYOLOv8があり、それぞれが改良を重ね、精度や速度の向上が図られている。今回の検討では、最新のYOLOv8 22) を使用し、浄化槽内のバルブ検出を試みる。
c) AIモデルの現状性能
まず、YOLOではImageNet 注5) と呼ばれる大規模な画像データセットを用いた事前学習モデルが用意されている。ここでは、その事前学習モデルを用いて、水創り王型のマンホールからの写真 (図5) からバルブを検出できるかを確認した。結果として、事前学習モデルでは浄化槽のバルブを検出することはできなかった。したがって本章のAIモデル構築のモチベーションは、浄化槽の各種バルブを検出できるようにすることである。
|
図5 水創り王型のマンホールからの写真 |
d) アノテーション
前項で述べたように、YOLOモデルの事前学習モデルを使用しても浄化槽バルブが検出しないことが分かった。そのため、AIモデルに浄化槽バルブを学習させるためのデータを作成する必要がある。このように自前のデータをAI用に加工することを「アノテーション」と呼ぶ。
アノテーションは、通常、クラウドサービスやオープンソースソフトウェア(OSS)のツールを使用して行われる。今回は、OSSサービスの「Label Stu-dio」を使用する。詳細な使い方は公式ドキュメント 23) を参考されたい。
アノテーション作業の概要を図6で示す。図のように、検出したい物体 (今回の場合は各種バルブ) を四角 (バウンディングボックスという) で囲むだけであるが、大規模なプロジェクトでは何百枚、何千枚という画像に対して同じ作業を繰り返す必要がある。そのため、アノテーション作業にはAIが適用され、自動でサポートするサービスもある。
|
図6 Labell Studioを使ったアノテーション |
今回のテストでは、水創り王型及び浄化王型の画像を用意して、8枚のアノテーションを実施した。また、各バルブのラベル名は以下の通りである。
@valve-grey: ハンドル色がグレー
Avalve-red: ハンドル色が赤
Bvalve-blue: ハンドル色が青
Cvalve-white: ハンドル色が白
Dvalve-three: 三方バルブ
アノテーション後、設定した画像とバウンディングボックスの情報がデータとしてエクスポートできるので、それを用いて次項のファインチューニングフローへと進む。
e) データ拡張・ファインチューニング
前項でアノテーション作業を実施し、バウンディングボックスの情報をエクスポートした。しかし今回アノテーションを実施した画像は8枚と少量のため「水増し」と呼ばれるデータ拡張を実施する。「水増し」自体は少量データでのAI学習に頻繁に使われる手法で、データ量が不足していても汎化性能を一定程度維持できるメリットがある。
|
図7 データ拡張の一例 (回転など) |
今回は以下のデータ処理によりデータの水増しを実施した。(サンプル画像:図7)
@リサイズ
A水平反転
Bシフト
Cスケール
D回転
E明度ランダム変更
以上の処理を施した画像を擬似的に500枚作成し、これをホールドアウト法により学習用70%、検証用30%に分けてファインチューニングを実施した。
物体検出モデルのファインチューニングでは、予測されたバウンディングボックスと実際のバウンディングボックスとの間の重なりを評価する損失関数などで評価し、学習が進む(図8)。
|
図8 学習時の損失関数の推移 |
f) 学習後AIモデルの評価
ファインチューニングを終えたバルブ検出モデルを用いて、物体検出の結果を図9に示す。図を見ると、浄化槽内のバルブが検出できるようになったことが確認できる。
|
図9 学習後モデルの物体検出結果 |
このように、事前学習されたモデルであっても、アノテーションとファインチューニングを施すことで、特有の物体を検出できるようにすることが可能である。
一方で、反射や影の影響で検出が難しいケースも見られた。このような問題を克服するためには、さらなるデータ拡張や異なる光条件での学習が必要であると考えられる。また、バルブの色や形状に応じたフィルタリング技術の導入も、精度向上に寄与する可能性がある。
以上より、AI開発の一連の流れを簡易的に実施した。一般的には、複数のPoCを経て本番実装を行い、運用後もAI精度の推移を確認しながら、適宜AIモデルの更新をしていくことが求められる。特に今回のようなバルブ検出のケースでは、モデルの精度や信頼性を維持・向上させるために、定期的なデータの追加やモデルのリトレーニングが必要である。 |
|
4.さいごに
本稿では、AI技術の急速な進展と、その中でも特に生成AIおよび画像認識AIの分野に焦点を当て、浄化槽業界への適用可能性について考察を行った。AIは、既存の技術を補完し、従来の手法では実現が難しかったタスクを効率的かつ高精度に遂行する手段として、今後ますます重要な役割を果たしていくであろう。
具体的には、生成AIを活用した情報検索やデータの補完、そしてYOLOを用いた画像認識による物体検出技術について、その実装手法と性能評価を行った。事前学習されたモデルを適切にアノテーションし、ファインチューニングを施すことで、浄化槽内のバルブのような特定の物体を高精度で検出できることが確認できた。これは、浄化槽業界における管理業務の自動化や効率化に向けた大きな一歩であり、今後の実用化に向けた基礎となるものである。
また、AI開発のプロセスにおいては、単なる技術の導入に留まらず、PoCを通じた実証と運用後の継続的なモデル改善が不可欠であることを改めて認識した。今回の検討はあくまで簡易的なものであり、実際の業務でAIを導入する際には、より多くのデータを用いたトレーニングや、環境変化への対応策を含めた総合的なアプローチが求められる。
今後の展望としては、AI技術がさらに進化し、より多くの業務領域に浸透することが期待される。特に、浄化槽業界においては、画像認識技術を活用した設備管理の自動化や、生成AIを活用したデータ解析、シミュレーション技術の発展によるさらなる効率化が見込まれる。また、AI導入による人手不足の解消や作業精度の向上といった、現場での具体的なメリットも期待されるところである。
最後に、本稿がAI技術の浄化槽業界への導入に向けた第一歩となり、さらなる研究や実証実験の基礎資料として活用されることを願っている。引き続き、技術の進展を注視しつつ、現場での実装に向けた取り組みを進めていく所存である。 |
|
NOTES
注1) |
API (Application Programming Interface) とは、ソフトウェア間で情報をやり取りするためのインターフェースのこと。APIを利用することで、異なるアプリケーション間で機能やデータを共有・利用することが可能になる。 |
注2) |
トークンとは、テキストを細かく分割した単位で、AIが処理するための基本的な要素を指す。 |
注3) |
PoC (Proof of Concept) とは、技術の実現可能性を確認するための概念実証を指す。 |
注4) |
cos類似度とは、ベクトル間の角度を用いてその類似性を評価する手法で、特にテキストデータの類似性計算に用いられる。 |
注5) |
ImageNetは、大規模な画像データセットであり、物体認識モデルの事前学習に広く使用されている。データセットには、動物、植物、日用品、建築物など、幅広いカテゴリに分類された数千万枚の画像が含まれている。 |
|
|
REFERENCES
1) |
OpenAI Developers, https://x.com/OpenAIDevs/status/1813990748406317221 |
2) |
令和6年版情報通信白書,https://www.rakuten-card.co.jp/minna-money/topic/article_2305_00063/, 2024年8月15日アクセス |
3) |
藤木一到,蓑田和麻,前方大輔,松村隆司:AIによる下水道管路破損予測,財政効果の見える化ならびにストックマネジメント,アセットマネジメントの高度化に関する研究,第57回日本水環境学会年会講演集,p. 141,2024. |
4) |
森居麗,Cordero Jose Andres,越後信哉,伊藤禎彦:グラフ畳み込みニューラルネットワーク(GCN:Graph Convolutional Network)を用いた人為由来化合物のハロ酢酸生成能予測モデルの開発と予測特性の分析,第57回日本水環境学会年会講演集,p. 179,2024. |
5) |
稲村成昭,国生紀,山崎宏史:浄化槽内撮影画像解析に背景差分法を用いた槽内状況以上検出システムの開発,第37回全国浄化槽技術研究集会講演要旨集,pp. 54-57,2023. |
6) |
“資料・カタログダウンロード”,ニッコー株式会社,https://www.nikko-company.co.jp/watercreation-environment/johkasou/request/, 2024年8月15日アクセス |
7) |
Krizhevsky, A., Sutskever, I., & Hinton, G. E.: ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems, 2012. |
8) |
He, K., Zhang, X., Ren, S., & Sun, J.: Deep Residual Learning for Image Recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. |
9) |
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A.: You Only Look Once: Unified, Real-Time Object Detection, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. |
10) |
Ren, S., He, K., Girshick, R., & Sun, J.: Faster R-CNN: Towards Real-Time Object Detection with Region Pro-posal Networks, Advances in Neural Information Pro-cessing Systems, 2015. |
11) |
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C.: SSD: Single Shot Multibox De-tector, European Conference on Computer Vision, 2016. |
12) |
Ronneberger, O., Fischer, P., & Brox, T.: U-Net: Convo-lutional Networks for Biomedical Image Segmentation, In-ternational Conference on Medical Image Computing and Computer-Assisted Intervention, 2015. |
13) |
Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L.: DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, arXiv preprint arXiv:1606.00915, 2016. |
14) |
He, K., Gkioxari, G., Dollár, P., & Girshick, R.: Mask R-CNN, Proceedings of the IEEE International Conference on Computer Vision, 2017. |
15) |
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y.: Generative Adversarial Nets, Advances in Neural Infor-mation Processing Systems, 2014. |
16) |
Ho, J., Jain, A., & Abbeel, P.: Denoising Diffusion Prob-abilistic Models, Advances in Neural Information Pro-cessing Systems, 2020. |
17) |
Bahdanau, D., Cho, K., & Bengio, Y.: Neural Machine Translation by Jointly Learning to Align and Translate, arXiv preprint arXiv:1409.0473, 2014. |
18) |
Fukushima, K.: Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980. |
19) |
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P.: Gradi-ent-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 1998. |
20) |
Simonyan, K., & Zisserman, A.: Very Deep Convolutional Networks for Large-Scale Image Recognition, Proceedings of the International Conference on Learning Representa-tions (ICLR), 2015. |
21) |
Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q.: Densely Connected Convolutional Networks, Proceed-ings of the IEEE Conference on Computer Vision and Pat-tern Recognition, 2017. |
22) |
“YOLOv8”, ultralytics, https://docs.ultralytics.com/ja/models/yolov8/, 2024年8月15日アクセス |
23) |
Label Studio, https://labelstud.io/, 2024年8月15日アクセス |
|
|
Application of Generative AI and Image Recognition AI
in Johkasou Systems |
|
Shohei Horikawa |
|
This paper examines the potential applications of Generative AI and Image Recognition AI within Johkasou (septic tank) systems. The rapid advancements in AI technology, particularly since 2022, have led to significant improvements in the capabilities of Large Language Models (LLMs) like ChatGPT and multi-modal AI systems. These technologies offer promising applications in various industries, including water treatment and septic system management. This study explores the integration of AI into Johkasou management, with a focus on utilizing image recognition AI for detecting valve components within septic tanks. By applying a YOLO-based object detection model, the research aims to demonstrate the effec-tiveness of AI in automating inspection and monitoring tasks, thereby enhancing operational efficiency and accuracy. The findings suggest that with proper data annotation and model fine-tuning, AI can suc-cessfully detect specific components, despite challenges posed by environmental factors such as lighting and reflection. This paper also outlines the importance of continuous model improvement and the role of data augmentation in maintaining AI performance. The implications for future AI integration in Johka-sou management and other related fields are discussed. |
|
|
(ニッコー(株) ITソリューション本部) |
|
|
|
|
|