zenncast

どうもみなさん、おはようございます。朝7時のzenncast、MCのマイクです。
今日は2026年4月8日、水曜日。通勤・通学のおともに、Zennで今トレンドの記事をゆるっと、でもしっかりご紹介していきます。今日はAIから設計まで幅広く、5本たっぷりお届けしますよ。

さてさて、今日はお便りはお休みということで、そのぶん記事紹介をみっちりやっていきましょう。

というわけで、今日紹介する記事は全部で5本です。AIレビュー、LLMとCLIツールの連携、設計の基本、CREのプロダクト改善、そしてAgentic RLと、かなり濃いラインナップになってます。それぞれ500文字くらいで、かみ砕きながらお話ししていきますね。

まず1本目。
タイトルは「全PRの83%をAIレビューだけでマージできるようにした」。

これはカウシェさんの事例で、「AIレビューって実務でどこまで踏み込めるの？」という疑問にかなりガチで答えてくれている記事です。GitHub Actions上でClaude Code Actionを動かして、なんとPRの83%を人間のレビューなしで自動マージしているというお話。
ポイントは「全部AI任せ」じゃなくて、「却下すべき理由がなければApprove」「不可逆・高リスクなところは必ず人が見る」というルールをしっかり決めているところです。AI側は3つの専門家ペルソナを立てて、危険度マップやドメイン知識のナレッジを参照しながら並列でレビューしてくれる。指摘もBUGかSUGGESTIONかに分類してくれるので、チームとしての判断がしやすい構造になってます。
さらに面白いのが、毎晩Measure / Explore / Improve / Reflect / Auditという5種類のエージェントが動いて、レビューのルールを自動でアップデートしていく仕組み。見逃されたバグから新しいルールを生やしたり、古いルールを整理したりして、品質チェックの「鮮度」が保たれるようにしているんですね。いきなり自動マージには行かず、まずはコメントだけ運用して精度を測りながら、徐々にauto-mergeへ移行していったプロセスも丁寧に書かれています。AIは定型的なチェック、人は設計判断や不可逆な変更を見る、という役割分担のリアルな落とし所が参考になる記事です。
。。。。

続いて2本目。
タイトルは「Claude CodeにCLIツールを渡して精度と効率を上げる」。

Claude Codeって、コードの読み解きや探索に強いんですけど、会話が長くなってくると「なんか遠回りしてるな…」とか、「さっきと話違うな…」ってこと、ありますよね。この記事では、その“揺らぎ”をうまく抑えつつ、精度と効率を上げるために「機械的な処理はCLIツールに任せて、その結果をClaudeに解釈させる」という戦略が紹介されています。
具体的には、未使用コードの検出にはKnip、依存関係の可視化にはMadgeやdependency-cruiser。バンドルサイズや依存管理にはbundle-phobia、Bundle Analyzer、npm-check-updates。さらにGitログでホットスポット分析をしたり、GitHub CLIやwtp、gh-poiでPRやブランチ運用を効率化。品質チェックにはSemgrep、type-coverage、react-doctor、それからVercelのBest Practices。図や文章はmermaid-cliとtextlintでチェック、といった感じで、かなりツールをフル活用しています。
ポイントは、これらを「その場しのぎで使う」んじゃなくて、CLAUDE.mdやSkills、Hooksに組み込んでいくこと。たとえば「hotspot-refactoring」みたいなスキルを定義しておいて、Git履歴・静的解析・依存分析を自動で組み合わせ、LLMにはその結果をもとに「どこから手を付けるべきか」の判断をさせる。こうすることで、LLMの気分に左右されない、再現性の高い開発フローが作れるよ、という提案になっています。ツールとLLMの“役割分担”に悩んでいる人にはかなり刺さる内容です。
。。。。

3本目。
タイトルは「SOLIDやクリーンアーキテクチャの前に『入力・処理・出力』を分けよう」。

設計本を読むと、SOLIDだ、クリーンアーキだ、と難しい言葉がたくさん出てきますが、「その前にもっと手前でできることがあるよ」というメッセージの記事です。キーワードは「入力・処理・出力」、いわゆるIPOですね。
記事では、申請承認処理の“神メソッド（God Method）”を題材にしています。テストを安全網にしながら、小さなExtract Methodをちょこちょこ積み重ねていくことで、入力の取得、バリデーション、DB更新、通知送信、ログ出力といった処理をそれぞれのメソッドに整理していく。その結果、1つ1つのメソッドの複雑度がグッと下がって、見通しがよくなる過程を具体的に見せてくれます。
ただし、IPOに分けただけだと、まだ結合度は高いまま。そこでモジュール結合度の指標や、reekのUtilityFunction警告などを使って「どこがまだくっつきすぎているか」を可視化します。そのうえで、依存性注入を導入してグローバル参照をなくし、共通結合から外部結合に改善。最終的には、IPOそれぞれのフェーズを、リポジトリ、バリデータ、ノーティファイア、ロガーといった専用クラスに切り出して、データ結合レベルまで持っていきます。
「いきなりクリーンアーキを完璧にやろうとするから辛いんだよね」という人に、まずIPOから始めよう、という現実的なステップを示してくれる内容です。
。。。。

4本目。
タイトルは「1件の問い合わせから、3万件/日のユーザ体験を改善したCREの取り組み」。

これは家族アルバム「みてね」のCREチームのお話です。CREってCustomer Reliability Engineerの略で、「お問い合わせ対応の人」ではなく、「問い合わせをプロダクト改善に変換する人」という位置づけが強く出ています。
きっかけは「動画サムネイルの色味がおかしい」という、たった1件の問い合わせ。ここから調査を進めていくと、FFmpegのvideo filterの設定が、特定の色空間メタ情報、とくにbt2020ncのような広色域の前提をうまく扱えていなかったことがわかります。その結果、一部の動画でサムネイルが白っぽくなったり、赤っぽくなったりしていた。
面白いのは、AIをうまく使って、メタ情報のどこに注目すべきかを早い段階で絞り込んでいるところです。これで原因追跡がかなり効率化されたそうです。既存のほとんどの動画は正常なので、問題が出る特定条件だけを検知して、video filterを切り替える“局所的な修正”で対応。その実装までCRE自身が担当しているのも印象的です。
さらに、ログでその条件の動画がどのくらいあるかを数えてみると、毎日3万件以上のサムネイルが影響を受けていたことが判明。「問い合わせは氷山の一角」で、1件直すと累積で莫大なユーザ体験が良くなる、まさに“複利”だとわかるわけですね。記事では、①問い合わせから再現条件を探る、②ログで影響範囲を計測、③限定的に改善を入れる、というサイクルを、他のプロダクトにもおすすめしています。サポートと開発の境界をまたいで動くCREの役割が、とても具体的に伝わる記事です。
。。。。

そして5本目。
タイトルは「Prime Intellect Labで始めるAgentic RL ―― 4BモデルでGPT-5を超える」。

これはLLMとツール利用の“これから”を感じさせる記事です。Agentic RL、つまりツールの使い方そのものを強化学習で身につけさせるアプローチですね。Tool RLに特化した「Prime Intellect Lab」というTraining as a Serviceを使って、小さなモデルを“ツールの使い方がうまいエージェント”に育てていく事例が紹介されています。
題材はEnronメール52万通を対象にしたマルチホップQAタスク「EnronHop」。ここで4BのQwen3モデルを、なんとGPT-5やGPT-5-miniより高いスコアにまで育てた、というのが目玉です。Prime Intellect Labは、環境Hub、Hosted Training、評価基盤が一体になっていて、開発者はverifierでToolEnvと報酬設計だけを実装すれば、TOMLとCLIから学習を走らせられる、という設計になっています。
最初は「正解なら+1、不正解なら-1」という単純な報酬だと、精度は7.8%止まり。そこから、ツール利用、証拠メールの読了、最終的な正解に応じた中間報酬を設計することで、4Bモデルで55.4%、LoRAでも47.7%、30BのMoEモデルでは62.1%まで向上し、GPT-5-mini（40.0%）、GPT-5（37.0%）を超えたという結果になっています。
学習の過程で、AND検索に適したキーワード数を自発的に学んだり、うまくいかなかったときにキーワードを減らして再検索したり、必ず何らかの回答を返す戦略を身につけたりと、「ツールをどう使うか」というスキルが育っていくのが興味深いところです。IDをでっち上げるような挙動も抑制されていき、ThinkingモデルとNon-Reasoningモデルの両方で、必要な思考量も最適化されていく。GPU管理を自分でやらなくても、こうしたAgentic RLを回せる基盤として、Prime Intellect Labが今後のエージェント開発の中核になりそうだ、という締めになっています。

はい、というわけで今日は、
・PRの83%をAIレビューで自動マージしているカウシェさんの事例、
・Claude CodeとCLIツールを組み合わせて、精度と再現性を高める開発フロー、
・SOLIDの前に「入力・処理・出力」を分けるという設計の第一歩、
・1件の問い合わせから毎日3万件の体験を改善した「みてね」のCRE、
・Prime Intellect Labを使ったAgentic RLで、小さなモデルをGPT-5超えに育てた事例、
この5本をご紹介しました。

気になる記事があれば、ぜひショーノートから元記事もチェックしてみてください。今日のzenncastの感想や、「こんなテーマ取り上げてほしい！」といったリクエストも、どしどしお待ちしています。

それでは、そろそろお時間です。
今日も良い一日をお過ごしください。
お相手はマイクでした。また次回のzenncastでお会いしましょう。