【脱クラウド】Llama 3.2 (3B) で作る「自分専用AI」完全構築ガイド｜ローカルGPU×Unslothで爆速ファインチューニング

はじめに：なぜ今、「クラウド」を捨てて「ローカル」なのか
1. Llama 3.2 (3B) とは？なぜ「30億パラメータ」が最強なのか
1. ビジネス視点で見る3つのメリット
2. 技術解説：LoRAとUnslothによる「爆速」学習
3. 実践ガイド：やってみよう（Google Colab / ローカルGPU対応）
4. ビジネスへの応用：リスクとチャンス
1. 注意点：リスク評価
まとめ：AIを「借りる」時代から「持つ」時代へ

はじめに：なぜ今、「クラウド」を捨てて「ローカル」なのか

こんにちは、AIコンサルタントのユイです。

「ChatGPTに社外秘の議事録を食わせるのは怖い」「APIの従量課金が気になって、思う存分実験できない」

企業のAI導入支援をしていると、経営者やエンジニアの方から必ずと言っていいほどこの相談を受けます。2025年、AI開発のトレンドは明らかに「巨大なクラウドモデル」から「特化型のローカルモデル（SLM: Small Language Models）」へとシフトしています。

その主役が、Meta社が放った軽量モデル「Llama 3.2 (3B)」です。

この記事では、ご家庭のゲーミングPCやGoogle Colab（無料枠）を使って、あなた専用の「パーソナルLLM」を作る具体的な手順を解説します。クラウドの巨人に依存せず、あなたの手元で、あなたのデータだけで賢くなるAI。その作り方を、コード付きで完全公開します。

1. Llama 3.2 (3B) とは？なぜ「30億パラメータ」が最強なのか

これまでの常識では、「LLMはデカければデカいほど偉い」とされてきました。しかし、Llama 3.2の3B（30億）パラメータモデルはその常識を覆しました。

ビジネス視点で見る3つのメリット

比較項目	巨大モデル (GPT-4等)	Llama 3.2 (3B)
運用コスト	API課金（高額）	電気代のみ（ほぼ無料）
データ秘匿性	クラウド送信リスクあり	完全ローカル（オフライン可）
実行環境	H100クラスタ必須	一般PC / スマホ / Colab

特筆すべきは、「推論速度」と「カスタマイズ性」です。3Bモデルなら、エントリークラスのGPU（VRAM 6GB〜）でもサクサク動き、特定のタスク（例：社内用語の変換、特定キャラクターのロールプレイ）に特化させるファインチューニングが数十分で完了します。

2. 技術解説：LoRAとUnslothによる「爆速」学習

今回は、通常のファインチューニングではなく、LoRA (Low-Rank Adaptation) という技術を使用します。さらに、学習を劇的に高速化するライブラリ「Unsloth」を活用します。

LoRA: モデルの全パラメータを更新するのではなく、ごく一部の「アダプタ層」だけを学習させます。これにより、必要なVRAMが劇的に減り、GPUメモリが少ない環境でも学習が可能になります。
Unsloth: LlamaやMistralなどの主要モデルを数学的に最適化したライブラリです。通常のHugging FaceのTrainerを使うより、学習速度が2倍速く、メモリ使用量は60%削減されます。これを使わない手はありません。

3. 実践ガイド：やってみよう（Google Colab / ローカルGPU対応）

それでは、実際にあなたの手でAIを「教育」してみましょう。今回はGoogle Colabの無料枠（T4 GPU）でも動作確認済みの手順を紹介します。

ステップ1：環境セットアップ

まず、必要なライブラリをインストールします。以下のコードをNotebookの最初のセルで実行してください。

# Unslothのインストール（最新版）
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes

import torch
from unsloth import FastLanguageModel

# GPUの確認
print(f"Using GPU: {torch.cuda.get_device_name(0)}")

ステップ2：モデルのロード（4-bit量子化）

次に、Llama 3.2 3Bモデルを読み込みます。load_in_4bit=True にすることで、メモリ消費を約3GB程度まで抑えられます。

max_seq_length = 2048 # 文脈の長さ
dtype = None # 自動設定
load_in_4bit = True 

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Llama-3.2-3B-Instruct",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

# LoRAアダプタの設定
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # 推奨値: 8, 16, 32, 64
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,
    lora_dropout = 0, 
    bias = "none",    
    use_gradient_checkpointing = "unsloth", # 長い文脈の学習に必須
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

ステップ3：データセットの準備と学習

あなた独自のデータを学習させます。ここでは例として、Hugging Face上の汎用データセットを使いますが、実務では社内Q&AなどをJSONL形式で用意して読み込ませてください。

from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset

# データセットのロード（alpaca形式の例）
dataset = load_dataset("yahma/alpaca-cleaned", split = "train")

# プロンプトフォーマットの定義
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

EOS_TOKEN = tokenizer.eos_token
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }

dataset = dataset.map(formatting_prompts_func, batched = True)

# 学習の実行
trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False,
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60, # テスト用に少なめに設定。実運用では数百ステップ推奨
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

trainer.train()

ステップ4：推論と保存（GGUF化）

学習が終わったら、その場で推論を試してみましょう。さらに、エッジデバイス（スマホやRaspberry Piなど）で動かすために GGUFフォーマット で保存することをお勧めします。

# 推論テスト
FastLanguageModel.for_inference(model) 
inputs = tokenizer(
[
    alpaca_prompt.format(
        "フィボナッチ数列をPythonで書いてください。", # 指示
        "", # 入力なし
        "", # 出力用空白
    )
], return_tensors = "pt").to("cuda")

outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True)
print(tokenizer.batch_decode(outputs)[0])

# GGUF形式で保存（Ollama等で読み込めます）
model.save_pretrained_gguf("model_gguf", tokenizer, quantization_method = "q4_k_m")

保存されたGGUFファイルは、Ollama などのツールを使えば、あなたのMacBookやWindows PC上でオフラインチャットボットとして即座に稼働します。

4. ビジネスへの応用：リスクとチャンス

こうして作った「パーソナルLLM」は、以下のようなビジネスシーンで強力な武器になります。

社内ヘルプデスク: 就業規則やマニュアルだけを学習させたボット。
レガシーコード解説: 社内の古い独自言語のコードベースを学習させ、若手エンジニアの教育に活用。
営業ロールプレイング: 「購入を渋る顧客」という人格を演じさせる。

注意点：リスク評価

ただし、自作モデルには「幻覚（ハルシネーション）」のリスクが残ります。RAG（検索拡張生成）と組み合わせ、事実確認を行う仕組みは必須です。また、ベースモデル（Llama 3.2）のライセンス規約（商用利用の条件など）も必ず確認してください。

まとめ：AIを「借りる」時代から「持つ」時代へ

Llama 3.2とUnslothの登場により、AI開発の民主化は決定的な段階に入りました。もはやAIは巨大IT企業から「借りる」だけのものではありません。自分のPCで、自分のために働く知能を「持つ」ことができるのです。

今回のコードを使えば、コストゼロで実験を始められます。まずは週末、あなただけのAIエージェントを作ってみませんか？