LLM/LMM

OpenWebUIの存在を知って、まるでChatGPTやGeminiのようにローカルLLM/LMMが使えることが分かり(いまさらかもしれないけれど)、ちょっと遊んでみている。

バックエンドというかLLM/LMMをサーブするのはollamaかvLLMかという選択肢があるようだけれど、ひとまずあれこれ実験するのに手軽なollamaを使ってみている。ollamaの場合はおそらくollamaが対応しているモデルでないと使えないのではないかと思うが、それに加えてどうやらollama版は元のモデルとできることが違うことがあるようだ。

具体例として、gemma3n:e4bはたぶん元モデルはマルチモーダルなのではないかと思われるのだが、ollama版はテキストのみ対応のようだ。写真をアップロードして解説を頼むと、私には見えない、とおっしゃる。写真データがアップロードできていないのかと思ったけれどClaudeに聞くと一番多いのは画像認識が出来ないモデルのため、ということのようで、確実に画像認識ができるモデルに切り替えると確かに認識された。

gemma3:4bは画像認識できる、ということで試してみると、CPUのみ搭載ノートで最大20GB弱のメモリを食ったし、すごく遅いけれどちゃんと認識できていた。

これから、Apache2のリバースプロキシを使ってSSL通信ができるようにしたいと考えている。そうでないとどうもマイクが使えなさそうなのだ。