
こんにちは!Qube開発チームのミャーモです。
今回は、「ローカルLLM」に挑戦してみました!
大規模言語モデル(LLM)といえば、ChatGPTなどのクラウドサービスが有名ですよね。
でも、個人情報や社外秘のデータを扱いたい、インターネット接続なしでも使いたい、なんてときには「ローカルLLM」が便利なんです。
▽Qubeについてはこちらから
https://www.css-net.co.jp/qube
- 今回のミッションとモデル選定基準にゃ!
- ローカルLLM環境の構築(Ollama編)にゃ!
- 実際にLLMを使ってみるにゃ!
- 処理速度とメモリ使用量を測ってみたにゃ!
- 画面からはモデルのアンインストールできないのにゃ?
- まとめと、次のミッションにゃ!
- この記事を書いた人
今回のミッションとモデル選定基準にゃ!
今回のミッションは、一般的な個人用PCでも手軽に使える日本語ローカルLLMを試してみること。
IT技術者じゃない人でも「面白そう!自分でもやってみたい!」と思ってもらえるように、分かりやすさを心がけました。
LLM(大規模言語モデル)とは?
大量のテキストを学習し、人間のように自然な文章を理解・生成できるAIモデルです。
・代表的なモデル例:GPTシリーズ(OpenAI)、Gemini(Google)
ローカルLLMとは?
個人のPCなどローカル環境で動作するLLMで、ネット接続なしでも利用可能。
プライバシーを保ちながらAIを活用できます。
・代表的なツール(プラットフォーム)例:Ollama、LM Studio
・代表的なモデル例:Llama(Meta)、Gemma(Google)
モデルとは?
新しい文章や画像を自動で作り出すAIモデル。
いくつもの種類やシリーズがあり、それぞれに特徴や得意分野があります。
ツール/モデルを選ぶにあたって、以下の点を重視しました。
-
無料であること: 🐈⬛ 🐱
-
日本語の処理性能が高いこと
-
個人用PCのスペックで動くこと
【動作環境】
-
OS: Windows 11 Pro
-
CPU: Intel Core i7-1360P
-
メモリ: 32GB
※GPUは使用しません。
ローカルLLM環境の構築(Ollama編)にゃ!
今回、ローカルLLMを動かすためにOllamaというツール使いました。
Ollama - ローカル環境で簡単にLLMをセットアップできるツール。
Mac、Linux、Windowsに対応しています。
1. Ollamaのインストール
公式サイトからWindows版のインストーラーをダウンロードして実行します。 ollama.com


2. モデルの選択・インストール
ollamaの画面 右下のドロップダウンでモデルが選択できるようになっています。
今回はgemma3:4bを選択してみました。
gemma3:4B - Googleが開発した軽量高性能なモデル。日本語での回答が得意。

ollamaの画面上からモデルを選択して質問すると
初回のみモデルのダウンロードが始まります。

→数分待つと、gemma3:4bがインストールされました。
実際にLLMを使ってみるにゃ!
インストールが終わったら、いよいよ文章生成が始まります!
今回は、せっかくなので、今回のブログ記事の導入文のアイデアをLLMに考えてもらいました。
プロンプト(指示文)
「ローカルLLMを試してみた」というテーマでブログ記事を書きます。
読者がIT技術者でなくても興味を持つような、面白くて読みやすいブログ記事の
導入文(100字程度)をタイプ別に3つ提案してください。
時折語尾に「にゃ」を入れてください。
生成された文章
< 省略 >
パターン1:ワクワク系
「え、マジで?!手元でAIが動くって…!ローカルLLMを試して、想像以上に賢いことに感動しましたにゃ。まるで魔法みたいで、ちょっと危険だけど、ワクワクが止まりませんにゃ!」
パターン2:好奇心煽り系
「クラウドに頼らず、自分のPCでAIを動かせるって、ちょっと気が早いチャレンジでしたにゃ。ローカルLLMを試してみた結果、クラウドとの違いがハッキリして、改めてAIの可能性に気づかされましたにゃ。意外な発見があるかも!」
パターン3:親しみやすい系
「最近、AIにちょっと興味があって、色々試してみようと思ったんだけど、ローカルLLMを触ってみたら、思ったより簡単だったんですにゃ!まるで自分のパソコンに小さなアシスタントがついてるみたいで、ちょっと便利になりましたにゃ。」
< 省略 >
どうですか?まるで人が書いたかのように自然で、読者の心をつかむような文章ですよね。
この導入文をベースに、ミャーモ風にアレンジしてこのブログを書いてみました🐾
処理速度とメモリ使用量を測ってみたにゃ!
今回のPC環境で、処理速度とメモリ使用量を計測してみました。
-
CPU: 生成時45%程度
-
GPU: 今回は使用していません。
-
メモリ: 生成時4.2GB程度
-
トークン生成速度: 1秒間に約14トークン生成できました。今回の文章生成では、約25秒で結果が得られました。
※トークンとは、文章を単語や記号に区切った単位です。日本語の場合、ひらがな1文字が1トークンになることもあります。
gemma3:4Bモデルは、一般的なノートPCのスペックでも十分に実用可能なようです。特別な高性能PCを用意しなくても手軽に試せるのに魅力を感じました。
画面からはモデルのアンインストールできないのにゃ?
Windows版Ollamaでは、画面からモデルを選択して質問するだけでモデルがインストールできますが、モデルのアンインストール(削除)は画面のGUIからはできないようです💦
コマンドプロンプトから以下のコマンドでアンインストールできます。
# モデル名を確認
ollama list
# モデル名を指定してアンインストール
ollama rm <モデル名>
まとめと、次のミッションにゃ!
今回はgemma3:4bを使い、日本語で安定した回答を返すことができました。今後は他のモデルも試しながら、さらに活用の幅を広げていきたいと思います。
これからのAI活用に関心のある方は、ぜひローカルLLMの世界に一歩踏み出してみてください。安心・安全な環境で、あなたの業務や創造性をサポートしてくれることでしょう。
それでは、また次のブログでお会いしましょう!
Qube開発チームのミャーモでした🐾
この記事を書いた人

【ペンネーム】
ミャーモ
【最近がんばってること】
英語・韓国語・中国語を細々と勉強してるにゃ
【最近気にしていること】
運動不足を気にしているにゃ🐷🏋️