こんにちは、AIコンサルタントのユイです。
「AI導入を進めたいが、結局チャットボット止まりで業務効率化の実感がない」
そんな悩みを抱える企業のDX担当者の方、多いのではないでしょうか。実は今、最もホットで、かつ「泥臭い」AI実装が進んでいるのが、意外にも建設業界です。
先日発表された大成建設のニュースは、業界に激震を走らせました。複雑怪奇な「全体施工計画書」の作成時間を、最新のマルチモーダルAI(VLM)を使って85%も削減したのです。「8.5%」ではありません。「85%」です。
今回は、この大成建設の事例と、パナソニックが発表した新型VLM「LaViDa」の技術を深掘りし、「AIに目を持たせる」ことでビジネスがどう激変するのか、その具体的なメカニズムと私たちへの応用方法を解説します。
なぜ「建設業界」のAI事例が重要なのか?
建設業界のドキュメント業務は、AIにとって「最難関」の一つでした。その理由はシンプルです。
- 情報の非構造化:図面、工程表、現場写真、手書きメモが混在している。
- 高い専門性:専門用語の塊であり、ミスが許されない(安全に関わる)。
- フォーマットの厳格さ:官公庁提出書類など、独特な形式(Word/Excel)への出力が必須。
これまでのテキスト生成AI(LLM)では、「図面を見て判断する」ことができず、実務への適用は限定的でした。しかし、画像や視覚情報を理解するマルチモーダルAI(VLM: Vision-Language Model)の進化が、この壁を突破しました。
事例1:大成建設「全体施工計画書作成支援システム」の衝撃
2025年12月、大成建設が発表したシステムは、まさに「実務特化型AI」の完成形と言えます。
システムの仕組みと成果
| 項目 | 従来の手法 | AIシステム導入後 |
|---|---|---|
| 入力情報 | 人間が図面、公告、過去資料を目視確認 | AIが発注情報、社内ナレッジ、図面・画像を一括解析 |
| 作成プロセス | 手作業でコピペ、文章作成、図版調整 | AIがドラフト(Word形式)を約10分で自動生成 |
| 所要時間 | 数日~数週間 | 従来比 約85%削減 |
| 品質担保 | 人間のダブルチェックのみ | 信頼性スコアによるAIの自己評価+人間による確認 |
ここがすごい!「実用化」への3つのカギ
- Word形式での出力:
多くのAIツールはチャット画面で終わりますが、このシステムは業務でそのまま使えるWordファイルを出力します。「ラストワンマイル」を埋めた点が画期的です。 - マルチモーダルRAG(検索拡張生成):
社内の膨大な技術提案書や過去の計画書をデータベース化し、テキストだけでなく「類似の図面」や「配置図」も参照して生成に活かしています。 - ハルシネーション(嘘)対策:
AIが生成した内容に対し、AI自身に「確信度」を判定させ、怪しい箇所を人間にハイライト表示で通知する機能を実装しています。
事例2:パナソニック「LaViDa」が切り拓く構造化の未来
もう一つ注目すべきは、パナソニックが開発した拡散モデルを用いた視覚言語モデル「LaViDa」です。
従来、文章を生成するAIは「次の単語を予測する(自己回帰型)」のが主流でしたが、LaViDaは画像生成AIのように「ノイズから全体を一気に復元する(拡散モデル)」手法を言語に応用しました。
ビジネスへのインパクト:なぜ「拡散モデルVLM」なのか?
- 構造化が得意:
図表や帳票のような、フォーマットが決まっているデータの読み取りと出力(JSON形式など)において、圧倒的な精度と速度(従来の約2倍)を誇ります。 - 全体俯瞰:
「左上のロゴを見て、右下の印鑑を確認する」ような、文書全体のレイアウト関係性を把握する能力が高いと推測されます。
これは、請求書処理、保険の申請書確認、手書き図面のデジタル化など、「定型業務の自動化」におけるゲームチェンジャーになり得ます。
【独自分析】2026年、企業が狙うべき「マルチモーダルAI」戦略
大成建設とパナソニックの事例から見えてくるのは、「AIに目を持たせ、現実世界のデータを構造化する」という勝ち筋です。
テキストAI vs マルチモーダルAI 活用領域の比較
| 活用領域 | 従来のテキストAI (LLM) | マルチモーダルAI (VLM) |
|---|---|---|
| 得意タスク | メール作成、要約、翻訳、アイデア出し | 図面解析、異常検知、動画マニュアル作成、デザイン評価 |
| 入力データ | テキストデータ (Word, Txt) | PDF, 画像, CADスクショ, 現場写真, 動画 |
| 主な導入先 | マーケティング、カスタマーサポート | 製造、建設、医療、物流、小売 |
| ビジネス価値 | 「考える」時間の短縮 | 「確認する」「入力する」物理作業の代替 |
特に製造業や建設業では、「文字になっていない情報(現場の状況、図面の意図)」が業務の9割を占めます。ここをAIで扱えるようになったことが、今回の85%削減の正体です。
【実践】今日から使える「マルチモーダル分析」プロンプト
大成建設のような専用システムがなくても、最新の Gemini 1.5 Pro や GPT-4o を使えば、個人レベルでも似たような業務効率化が可能です。
例えば、複雑な図表入りの仕様書(PDF/画像)を読み込ませ、リスクチェックを行うプロンプト例を紹介します。
📑 図面・仕様書リスク検知プロンプト
対象AI: Gemini 1.5 Pro / GPT-4o (ファイルをアップロードして使用)
# 命令:
あなたはベテランの施工管理技士およびリスク管理の専門家です。
添付した[図面/仕様書の画像]と[関連する法規制/社内規定テキスト]を照らし合わせ、以下の手順で分析を行ってください。
# 手順:
1. 【視覚分析】画像内の危険箇所や、規定違反の可能性がある配置(例:足場と電線の距離、開口部の養生不足など)を特定してください。
2. 【根拠提示】なぜそれがリスクなのか、添付テキストまたは一般的な安全基準に基づいて理由を述べてください。
3. 【改善案】具体的な対策案を提示してください。
4. 【構造化出力】結果を以下のMarkdownテーブル形式で出力してください。
| リスクレベル (高/中/低) | 該当箇所 (画像内の位置) | リスク内容 | 根拠規定 | 推奨対策 |
| --- | --- | --- | --- | --- |
| ... | ... | ... | ... | ... |
このプロンプトを使うことで、単なる「画像の説明」ではなく、「専門家の視点による監査」をAIに代行させることができます。契約書のチェックや、店舗の陳列棚の分析などにも応用可能です。
まとめ:AIは「読む」から「見る」へ
大成建設の事例は、AI活用が「チャットボットでの遊び」を卒業し、「企業のコア業務プロセス(Core Business Process)」そのものを書き換えるフェーズに入ったことを示しています。
重要なのはツールを導入することではなく、「自社の業務において、視覚情報(画像・映像)とテキストを組み合わせることで効率化できるプロセスはどこか?」を見つける視点です。
マルチモーダルAIの波に乗り遅れないよう、まずは身近な「画像付きドキュメント」の解析から始めてみてください。


コメント