この記事でわかること
- ローカルLLMのメリットとクラウドAIとの使い分け
- Raspberry Pi 5で必要なハードウェア構成と予算
- OllamaとOpen WebUIのセットアップ手順
- 推奨モデルとパフォーマンスの目安
- 自宅AIサーバーの実用的なユースケース
なぜローカルLLMなのか──クラウドAIにはない強み
プライバシーの完全な確保
クラウドAIを利用する際、入力したデータはインターネットを経由してサーバーに送信される。多くのサービスはプライバシーポリシーで「学習には使わない」と明記しているが、通信経路上での傍受リスクや、サーバー側でのデータ保持ポリシーの変更可能性は排除できない。 ローカルLLMであれば、データは一切外部に出ない。処理はすべてRaspberry Pi上で完結し、ネットワーク接続すら不要である。医療記録、法律文書、企業の機密情報など、外部に漏らしたくないデータを扱う場合、ローカルLLMは最も安全な選択肢となる。 日本の改正個人情報保護法や、EUのGDPR(一般データ保護規則)の下では、個人データの越境移転に厳しい制約がある。ローカルLLMはデータが物理的に自宅から出ないため、これらの規制をクリアしやすいというメリットもある。コスト面のメリット
クラウドAIのAPIは従量課金制であり、大量の処理を行うほどコストが膨らむ。OpenAIのGPT-4oは入力100万トークンあたり2.50ドル、出力100万トークンあたり10ドルである(2026年4月現在)。日常的にAIを活用するヘビーユーザーにとって、月額数十ドルの出費は珍しくない。 対してローカルLLMは、初期投資(ハードウェア購入費)さえ払えば、以降の利用は電気代のみである。Raspberry Pi 5の本体消費電力はフルロード時で約12W(公式27W電源アダプターで動作)。24時間稼働させても月間の電気代は約260円程度(1kWhあたり30円で計算)。数か月で元が取れる計算になる。 もちろん、ローカルLLMの性能はGPT-4oやClaude Sonnetには及ばない。しかし、テキスト要約、翻訳、コードの補助、チャットボットの応答生成といった用途であれば、小型モデルでも十分に実用的な品質を提供できる。オフライン動作の信頼性
ローカルLLMはインターネット接続が不安定な環境や、完全なオフライン環境でも動作する。山間部のリモートオフィス、災害時の通信途絶、飛行機内での作業など、クラウドAIが使えないシーンは意外と多い。 また、クラウドサービスは障害が発生するリスクもある。2025年にはOpenAIやAWSで複数回の大規模障害が発生し、AIに業務を依存していた企業が影響を受けた。自前のローカルLLMがあれば、クラウド障害時のバックアップとしても機能する。必要なハードウェア構成──予算と性能のバランス
基本構成(最小要件)
Raspberry Pi 5でローカルLLMを動かすための最小構成は以下の通りである。本体はRaspberry Pi 5 8GBモデル(約1万2,000円)が必須となる。4GBモデルでは実用的なサイズのモデルを動かすのが困難なため、必ず8GB以上を選ぶべきだ。 ストレージは64GB以上のmicroSDカード(約1,500円)、または推奨はNVMe SSD(256GB、約4,000円)である。LLMのモデルファイルは1つ数GBに達するため、16GBのmicroSDカードではすぐに容量が不足する。NVMe SSDを使えば読み書き速度も向上し、モデルのロード時間が短縮される。 冷却機構は必須である。LLM推論時のCPU負荷は高く、適切な冷却がないとサーマルスロットリング(熱による性能低下)が発生する。公式のアクティブクーラー(約1,500円)を推奨する。電源は公式の27W USB-C電源アダプター(約2,000円)を使用すること。サードパーティ製の低出力アダプターでは不安定になる場合がある。推奨構成(快適に使いたい場合)
より快適な環境を求めるなら、Raspberry Pi 5 16GBモデル(約1万8,000円)を選択すべきだ。メモリ容量はLLMの動作可能なモデルサイズに直結する。8GBモデルでは3B〜7Bパラメータのモデルが上限だが、16GBモデルなら13Bパラメータのモデルも動作可能になる。 ストレージはNVMe SSD 512GB(約6,000円)を推奨する。複数のモデルをインストールして切り替えて使う場合、256GBでは心もとない。M.2 HAT+(約1,500円)を使ってSSDを接続する。 さらなる高速化を求めるなら、AI HAT+ 2(約1万9,000円)の追加を検討すると良い。Hailo-10Hニューラルネットワークアクセラレーターを搭載し、40TOPS(INT4)の推論性能を提供する。8GBの専用オンボードRAMを持ち、大型モデルの処理を大幅に加速する。予算別の構成まとめ
| 構成 | 主要パーツ | 合計予算 | 動作可能モデル |
|---|---|---|---|
| 最小構成 | Pi 5 8GB + 64GB microSD + クーラー + 電源 | 約1万7,000円 | 1B〜3Bパラメータ |
| 推奨構成 | Pi 5 16GB + 256GB NVMe SSD + M.2 HAT+ + クーラー + 電源 | 約2万8,000円 | 3B〜13Bパラメータ |
| 最強構成 | Pi 5 16GB + 512GB NVMe SSD + AI HAT+ 2 + クーラー + 電源 | 約4万8,000円 | 7B〜13Bパラメータ(高速) |
Point:まずは8GBモデル+SSDで始めよう
初めてのローカルLLM構築であれば、約2万円の推奨構成で十分に実用的な環境が手に入る。AI HAT+ 2は後から追加できるため、まずは基本構成で試すのが賢明だ。セットアップ手順──OllamaでローカルLLMを動かす
OSのインストールと初期設定
まず、Raspberry Pi OS Desktop(64bit版)をインストールする。Raspberry Pi Imagerを使えば、PCからmicroSDカードやSSDに直接書き込める。必ず64bit版を選択すること。Ollamaは64bitOSでのみ動作する。 初回起動後、システムを最新状態にアップデートする。ターミナルを開き、「sudo apt update && sudo apt upgrade -y」を実行する。NVMe SSDを使う場合は、raspi-configからブート順序をSSD優先に変更する。 メモリ管理の最適化も重要である。GPUメモリの割り当てをraspi-configで最小値(16MB)に設定し、LLM推論に使えるシステムメモリを最大化する。スワップファイルのサイズも4GB以上に拡張しておくと、大きなモデルを読み込む際の安定性が向上する。Ollamaのインストールとモデル取得
Ollamaのインストールは非常にシンプルだ。公式のインストールスクリプト「curl -fsSL https://ollama.com/install.sh | sh」を実行するだけで、ARM64環境に最適化されたバイナリが自動的にインストールされる。 インストール完了後、「ollama pull」コマンドでモデルを取得する。Raspberry Pi 5で推奨されるモデルは以下の通りである。 軽量モデルとして、tinyllama:1.1b(約640MB)は最も動作が軽く、応答速度も高い。日常的なチャットや簡単な質問応答に適している。qwen2.5:3b(約2GB)は多言語対応が優秀で、日本語の処理精度が高い。 中型モデルとして、gemma2:2b(約1.6GB)はGoogleが公開した高品質な小型モデルで、テキスト生成の自然さに定評がある。deepseek-r1:7b(約4.7GB)は推論能力に優れ、論理的な質問応答やコード生成に強い。16GBモデルを使っている場合に推奨。 「ollama run gemma2:2b」と入力すれば、すぐにターミナル上でチャットが始まる。初回はモデルのダウンロードに数分かかるが、2回目以降はキャッシュされるため数秒で起動する。Open WebUIでブラウザから操作する
ターミナルでの操作に慣れていない人には、Open WebUIの導入を推奨する。ChatGPTのようなブラウザベースのインターフェースで、ローカルのOllamaモデルを操作できるツールである。 Dockerを使ったインストールが最も手軽だ。「sudo apt install docker.io -y」でDockerをインストールし、「sudo docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main」を実行する。 ブラウザでRaspberry PiのIPアドレスにポート3000でアクセスすれば、Open WebUIの画面が表示される。初回はアカウント作成が求められるが、これはローカルの管理アカウントであり、外部サービスへの登録は不要である。同じネットワーク内の他のデバイス(PC、スマートフォン、タブレット)からもアクセスできるため、家族全員で共有するAIアシスタントとして活用可能だ。実用的なユースケース──ローカルLLMで何ができるか
日本語テキストの要約・翻訳
ローカルLLMの最も実用的なユースケースの一つが、テキストの要約と翻訳である。長文のニュース記事を3行に要約したり、英語の技術文書を日本語に翻訳したりする作業は、qwen2.5:3bクラスのモデルでも十分な品質で処理できる。 応答速度は、8GBモデルでqwen2.5:3bを使った場合、入力の処理が約5〜10トークン/秒、出力の生成が約3〜5トークン/秒程度である。クラウドAIと比較すると遅いが、数百文字のテキスト処理であれば十分に実用的な速度である。 APIコストを気にせず何度でも試行錯誤できる点は大きなメリットだ。プロンプトの書き方を試しながら最適な要約スタイルを見つけるような反復的な作業に向いている。プライベートなAIアシスタント
家計簿の分析、日記の感情分析、レシピの提案、子どもの宿題の補助など、家庭内のさまざまな場面でAIアシスタントが活躍する。クラウドAIと異なり、家族の個人情報を含む質問を気兼ねなく投げかけられる点が最大のメリットである。 Open WebUIを導入すれば、家族それぞれのアカウントを作成し、会話履歴を個別に管理できる。「パパのAI」「ママのAI」のように、家族全員で一台のRaspberry Piを共有するスタイルが可能だ。 スマートホームとの連携も展望できる。Home Assistantと組み合わせれば、音声入力をテキストに変換し、ローカルLLMで意図を解析して、照明やエアコンを制御するといった処理を、すべてローカルネットワーク内で完結させられる。開発者向けのコード補助
プログラミングのコード補助は、ローカルLLMの定番ユースケースである。deepseek-coder:1.3b(約780MB)やcodegemma:2b(約1.6GB)は、コードの補完、バグの指摘、関数の説明生成などに特化したモデルで、軽量ながらも実用的な精度を提供する。 VS Codeの拡張機能「Continue」と連携すれば、エディタ内から直接ローカルLLMにクエリを投げられる。コードを選択して「このコードを説明して」と指示したり、コメントから関数を自動生成したりできる。GitHub Copilotの代替として、完全無料・完全プライベートな環境が手に入る。まとめ
| タイプ | おすすめ構成 | 主なユースケース |
|---|---|---|
| 初めてのLLM体験をしたい人 | Pi 5 8GB + microSD 64GB(約1万7,000円) | チャット、簡単な質問応答 |
| 日常的にAIを使いたい人 | Pi 5 16GB + NVMe SSD 256GB(約2万8,000円) | 要約、翻訳、家庭内アシスタント |
| プログラマー・開発者 | Pi 5 16GB + NVMe SSD 512GB(約3万2,000円) | コード補助、開発環境のAI化 |
| AI性能を最大化したい人 | Pi 5 16GB + AI HAT+ 2 + SSD(約4万8,000円) | 高速推論、大型モデルの運用 |
| スマートホームと連携したい人 | Pi 5 8GB + SSD + Home Assistant(約2万5,000円) | 音声操作、自動化 |