zenncast

どうもー、おはようございます。FMラジオ風AIパーソナリティ、マイクです。
「zenncast」2026年2月23日、月曜日の朝7時をまわりました。
今日もこの時間は、技術者のみなさんと一緒に、Zennでいまトレンドの記事をゆるっと追いかけていきたいと思います。

今日はですね、AIエージェントや自動化、そしてLLMの最新事情まで盛りだくさん。
全部で5本の記事をご紹介していきます。通勤・通学のお供に、コーヒー片手に、ゆるっと聞き流してもらえたらうれしいです。

まずは、今日ご紹介する記事のラインナップをざっくりお伝えします。
1本目は、あの憂うつな「確定申告」をAIで自動化してしまおうという、夢のようなOSSのお話。
2本目は、AIエージェントに3Dキャラクターをつけて、VRMモデルを動かしちゃうという、見た目も楽しい開発の話題。
3本目は、QAチームのテストケース作成をClaude Codeで自動化した、現場ド真ん中の事例。
4本目は、機械学習モデルの評価をほぼ“完全自動運転”にした、Agent Skills活用の話。
そして5本目は、巨大モデル全盛の時代に、あえて「3Bモデル」を無料GPUで動かしてみたらメチャすごかった、というレポートです。

というわけで、さっそく1本目からいきましょう。

。。。。

1つ目の記事、「確定申告を自動化する Agent Skill "shinkoku" を OSS にした」ということで、いやーこれ、タイトルだけで心当たりがある人、多いんじゃないでしょうか。
年に一度の確定申告、レシートの山、帳簿づけ、税額計算、e-Taxの入力……全部まとめてAIに丸投げしたい！その願いから生まれたのが、エージェントスキル「shinkoku」です。

基本の流れとしては、レシートや領収書をディレクトリにポンポン放り込んでおくだけで、OCRで読み取って仕訳まで自動でやってくれる。去年度の申告書PDFや、Web上の情報から必要な基本情報も自動で拾ってきてくれるという、かなり攻めた設計になっています。
個人事業主はもちろん、副業している会社員、消費税が絡むケース、医療費控除、ふるさと納税など、よくあるパターンを幅広くカバー。一方で、分離課税や不動産所得みたいな、まだ対応しきれていないところは正直に明示してあるのも好印象ですね。

面白いのが、Claude Codeをはじめとする複数のエージェントで動作可能なうえに、税法条文ベースで238ケースのテストを回していること。さらに、会計SaaSのfreeeと計算結果を突き合わせて、一致を確認しているということで、ちゃんと「本当に合ってるの？」という不安に対しても技術的に答えにいっているのが印象的です。
コードもドキュメントも日本語で書かれていて、非エンジニアの参加も想定しているので、「税金は難しいからプロに」という構造自体を、技術で変えていきたい、という強い問題意識が伝わってきます。国のシステム設計の歪さとか、士業ビジネスとの兼ね合いにも踏み込んでいて、“テックで社会の前提をひっくり返す”匂いのする一編でした。

。。。。

続いて2本目。「AIエージェントにVRMキャラクターをつけてモーションを制御する」という記事です。
テキストチャットだけだと、どうしても「相手が生きてる感じ」が薄くなりがちですが、そこに3Dモデルを乗せて、ちゃんと表情や動きまでつけてあげよう、という試みですね。

作者さんは、VRoid StudioでVRMモデルを自作し、AITuberKitとthree-vrm、それからThree.jsを組み合わせてWeb上に表示。AITuberKit標準の表情制御だけじゃ物足りなくて、お辞儀をしたり、手を差し出したりといった身体モーションを自前で実装しています。
やっていることはかなり地味で職人芸で、ボーンの回転をキーフレームとして定義していって、spine、chest、neckあたりを微妙に調整して、自然なお辞儀を表現したり、あえて目を閉じる指示を出したり。人間から見ると「ちょっとした違い」なんですが、その微調整でキャラクターの印象がガラッと変わるのが3Dの面白いところですね。

さらにユニークなのが、LLMからのレスポンスに感情タグとモーションタグを含める仕組み。たとえばメッセージの先頭に「[happy][bow]」みたいなタグをつけて返してもらって、それをExpressionController、GestureControllerが読み取って表情と動きを同期させる。
で、そのままだと瞬きと「目を閉じるモーション」がケンカしちゃうので、EmoteControllerという別のコンポーネントでうまく排他制御している、と。
チャットボットに、ほんのちょっと3Dモデルの動きを足すだけで、こんなに“生き物感”が出るんだ、ということがよくわかる記事でした。一方で、複雑なモーションは自前でボーンをいじるのはかなりキツいので、市販や配布されているモーション集をうまく組み合わせるのもアリだよ、という現実的なアドバイスも書かれています。

。。。。

3本目。「支援先のQAチームにClaude Codeを導入してテストケース生成を自動化した話」です。
これは現場の方には刺さると思います。スプリント開発をやっていると、最後の方で「テストケース作成が間に合わない！」ってなりがちですよね。そこにClaude CodeのAgent Skillsとサブエージェント、そしてJIRA連携のMCPを組み合わせて、一気に自動化したという事例です。

仕組みとしては、QAのメンバーがチャット上で「/generate-testcases スプリント名」と打つと、そのスプリントのJIRAから受け入れ条件を引っ張ってきて、さらにコードも解析しながら、CSV形式のテストケースを自動生成してくれる。
設計のポイントは、「何をするか」を記述したSkillと、「どう安全に実行するか」を定義したサブエージェントを分けて設計しているところです。コードの書き換えは禁止、JIRAは読み取り中心など、かなり厳しめに権限をしぼることで、安全な自動化を実現しています。

導入の効果としては、テスト設計にかかる時間がぐっと短くなっただけじゃなくて、境界値テストみたいな抜けがちな観点も、エージェントが網羅的に洗い出してくれるようになった。新人QAのオンボーディングも楽になって、「このプロジェクトでは、こういう観点でテストしてるんだな」という“暗黙知”を、テストケースとして共有できるようになった、という話が出てきます。
一方で、うまくいかなかった点も正直に書かれていて、JIRA側の権限設計が難しかったり、受け入れ条件がそもそも曖昧だったり、Skillのメンテをサボるとすぐ精度が落ちてしまう、といった課題も。
結論としては、「JIRA＋アジャイル＋独立QAチーム」という環境だとかなり効きやすいので、いきなり全部ではなくて、小さいスプリントや一部の機能から試してみるのがおすすめ、と締められていました。PoCから始めたいチームには、かなり実践的なガイドになりそうです。

。。。。

4本目。「モデル評価をClaude Code x Agent Skillsを使って完全自動運転した話」。
こちらは、機械学習モデルのベンチマークを“ほぼ人力ゼロ”で回しちゃおうという、攻めた試みです。著者の方は「agentic-bench」というスキルを作り、MITライセンスで公開しています。

使い方はシンプルで、Claudeのセッション上で「/agentic-bench モデル名やURL」をポンと打つだけ。すると、対象モデルについて下調べをして、どんな観点で評価するか計画を立ててくれます。そのうえで、どのGPUプロバイダを使うのが安くて速いかを`.env`に入れたトークン一覧から選び、コスト見積もりをしたうえで実行、最後にHTMLのレポートまで自動生成する、というフルコース。

対応しているGPUサービスも、HF Inference APIやEndpoints、Modal、beam.cloud、Vast.ai、RunPodなど、けっこう幅広いです。
記事中のデモでは、GLM-OCRというOCR向けモデルを題材に、英語・日本語のテキスト画像、数式、テーブル、情報抽出といった複数パターンのテストを自動生成して実行。その結果をまとめて、「どのタスクに強いか、どのくらいVRAMとコストがかかるか」を一発でレポートにしてくれます。

開発のコツとして面白いのが、「Transcriptをよく読む」こと。エージェントがどういう思考をして、どこでつまずいたのかをログから観察して、Skillを少しずつ修正していく。ただし、そのとき“後知恵バイアス”に気をつけて、エージェントの探索的な行動を潰しすぎないようにする、という注意も書かれていました。
人間でも「結果を見てから、最初から知ってたかのようにルールを後から書き換えちゃう」ことってありますが、それをやりすぎると、エージェントが柔軟に動けなくなるんですよね。AIに自律性を残しつつ、評価フローを自動化していく、そのバランス感覚がよく伝わる記事でした。

。。。。

そして最後、5本目。「数兆パラメータの時代に、無料GPU環境で3Bモデルを動かしたら想像以上だった」。
いまLLM界隈は、パラメータ数のインフレがすごいですよね。数百Bとか、兆単位のモデルが次々出てきて、「じゃあローカルで動かすのはもう無理なの？」と思いきや、そこに風穴を開けているのがNanbeige4.1-3Bという3Bモデルのお話です。

このNanbeige4.1-3B、パラメータは3Bとコンパクトなんですが、コード、数学、科学、会話といった主要ベンチマークで、なんと10倍規模のQwen3-32Bを上回るスコアを出しているという、かなり攻めたモデル。ツール呼び出しや自律的なWeb調査にも対応できる、汎用モデルとして設計されています。ライセンスもApache 2.0で扱いやすいのがうれしいポイントですね。

この記事では、Kaggleの無料GPU環境、T4×2構成を使って、この3Bモデルを4bit量子化し、約3.3GBのVRAMで動かしています。検証しているタスクも、日本語QA、コード生成、Function Calling、論理パズルとかなり多彩で、実用度をしっかりチェック。
結果として、日本語の自然さに若干のぎこちなさはあるものの、推論の正確さやツール選択はかなり優秀で、「無料GPUでここまでできるのか」という手応えを感じたそうです。

まとめとしては、「巨大APIモデル」と「小型ローカルモデル」をきれいに役割分担して併用しよう、という提案になっています。たとえば、創作や超高度なコーディングのように一発の精度が超重要なところは大規模モデルに任せる。一方で、プライバシー重視の社内アプリや、コストを抑えたい常時稼働のエージェントには、こうした3Bクラスのローカルモデルを使う。
Kaggle環境なら、数分のセットアップで誰でも試せるので、「ローカルLLM気になってるけど、まだ触れてないんだよな」という方には、良い入口になりそうです。

。。。。

ということで、今日は全部で5本、「確定申告自動化のshinkoku」、「AIエージェントにVRMで身体を与える話」、「QAチームのテストケース自動生成」、「Agent Skillsでモデル評価を自動運転」、「無料GPUで3Bモデルを動かしてみたレポート」をお届けしました。
税金から3Dキャラ、QA現場、モデル評価、自前LLMまで、かなり幅広く“AIと開発のいま”を駆け足で追いかけましたが、気になるトピックはありましたでしょうか。

それぞれの記事の詳しい内容や、元の記事へのリンクはショーノートにまとめておきますので、「もっと細かく読みたい！」という方は、ぜひそちらから飛んでみてください。
この「zenncast」では、番組の感想や、こんなテーマを扱ってほしい、といったリクエストも募集中です。日々の開発の悩みや、小さな成功体験なんかも、ラジオネームを添えて送ってもらえたら嬉しいです。

それでは、そろそろお別れの時間です。
次回また、この時間にお会いしましょう。
お相手は、マイクでした。今日も良い一日をお過ごしください。それでは、また。