おはようございまーす!ラジオ「zenncast」、パーソナリティのマイクです。
今日は2026年4月3日、金曜日の朝7時。通勤・通学中のあなたも、在宅でほっと一息のあなたも、今朝も一緒にZennのトレンド記事をチェックしていきましょう。今日は、AIエージェントから新しいCMS、時系列予測、セキュリティまで、幅ひろ〜く攻めていきますよ。

……というわけで、zenncastでは毎回、Zennで話題になっている記事をピックアップしてご紹介しています。今日はですね、なんと全部で5本、ご用意しております。技術寄りだけど、できるだけ噛み砕いてお届けするので、コーヒー片手にゆるっと聞いてください。

ではさっそく、今日紹介する内容、1本目からいきましょう。

まず1本目。「Claude Codeに仕様書を丸ごと渡すな ── 『要件を伝える』との決定的な違い」という記事です。
タイトルからして、ドキッとする人も多いんじゃないでしょうか。最近、Claude CodeをはじめとしたAIコーディングツールに、Markdownの仕様書をドーンと投げて「この通りに作って」とお願いしている人、結構いますよね。でもこの記事の筆者いわく、それはうまくいかないよ、と。

ポイントは、Claude Codeが「仕様書を真実だと思い込みやすい」というところ。コードベースよりも仕様書を優先してしまうので、「実は仕様と違うけど、現実のコードはこう動いている」とか、「既存のパターンに合わせてほしい」といった文脈が抜け落ちちゃうんですね。その結果、重要な要件の取りこぼしとか、プロジェクト内の既存パターンを無視した実装、ファイル間での不整合が起きやすくなる。

じゃあどうするかというと、「仕様書を丸ごと渡す」のではなく、「チケット単位で、何を・なぜ・受け入れ基準」を短くハッキリ伝える。さらに「既存のコードパターンに合わせて」とか、「関連コードを自分で読んで判断してね」といった指示を添えて、あくまでコードベースを主役にする、という発想です。Claude Codeは毎回コードを直接読める設計になっているので、ここを活かさない手はないと。

面白いなと思ったのが、「仕様書は人間同士の合意形成用」と割り切って、実装が終わったら技術ドキュメントはAIにコードから書かせる、という流れを推奨している点。それから、プロジェクトルートに「CLAUDE.md」みたいなファイルを置いて、「コードとテストを最優先」「このプロジェクトの暗黙ルール」みたいなものをはっきり書いておくと、AIとの共同開発の精度がどんどん上がる、という提案もされています。AIに何を渡すか、じゃなくて、「何を渡さないか」を決めるのが大事、というのが印象的な記事でしたね。

。。,。。

続いて2本目。「ハーネスエンジニアリングを極めたら、IssueからAIエージェントが動き、人間の役割は要件定義だけになった」という、これまた攻めたタイトルの記事です。
とあるスタートアップが、57万行のモノレポで、AIエージェントを21体も走らせる自律開発パイプラインを2ヶ月で作り上げた、という実録ストーリーになっています。

何をやったかというと、まず2月の1ヶ月間、機能開発をほぼ止めて、CI/CDとエージェント基盤の整備に全振りしたそうです。開発プロセスを「要求 → 要件 → 設計 → タスク分割 → 実装 → レビュー → マージ」と細かく分解して、その1ステップずつを、GitHubのIssueやProjects上にすべて載せる。で、「このラベルが付いたら、このAIエージェントが出動する」というルールを作って、バトンリレー形式で自動的に開発が進むようにした。

例えば、あるIssueに「needs-spec」ラベルが付くと、要件定義エージェントが仕様を文章化してくれる。次に「needs-design」ラベルになったら設計エージェントが動く。その後は実装エージェント、レビューエージェント、CI修正エージェント……という感じで、どんどん次のエージェントにタスクが渡っていくんですね。PRごとのプレビュー環境を自動で立てたり、DBの破壊的変更を検知してくれたり、要らなくなったコードを定期的にスコアリングしてくれたり、とにかく「人間の時間を奪う作業」をどんどんAI側に押し出している。

とはいえ万能ではなくて、カスタムリントやE2Eテストの完全自動化、本番バグを見つけてそのまま直すところまではまだ行けていないそうです。デザインツールのFigmaと連携して、デザインから実装まで自動でつなぐ構想も、道半ばとのこと。それでも、「開発プロセスの分解」「GitHubへの完全集約」「ラベル駆動の自律パイプライン」という3つを徹底したことで、小さな組織でも驚くほど開発速度が上がった、とまとめられています。

「AIに何をさせるか」よりも、「人間がどの段階で判断すべきか」をはっきりさせる、という意味で、ハーネスエンジニアリングという考え方の現場感がよく伝わる記事でした。

。。,。。

3本目は少し雰囲気を変えて、「WordPress後継CMS『EmDash』を触ってみる」という記事です。
これはCloudflareが出してきた新しいCMS「EmDash」を、実際に触ってレビューしてくれている内容ですね。WordPressっぽい管理画面の操作感を保ちながら、裏側はAstroとCloudflare Workersで動く、かなりモダンな構成になっています。

まず面白いのが、セキュリティまわりの思想です。Passkeyに対応していたり、プラグインをサンドボックス環境で動かしたりと、「とりあえず便利さ優先」だったこれまでのCMSとはちょっと違う、堅めの設計思想を感じます。それに加えて、AIエージェントとの連携を前提とした`AGENTS.md`とか`SKILLS`といった仕組みが用意されていて、「将来、コンテンツ作成や運用にAIを当たり前に使う世界」をかなり意識している印象です。

コンテンツはJSONで管理されていて、テーマやレイアウトはAstroで柔軟にカスタマイズできるので、開発者としてはかなり嬉しい構造。一方で、現時点ではアルファ版ということもあって、いくつか不便も。記事を追加したあとに`npx emdash seed`を実行しないと反映されないとか、GUIで記事を作っても、そのままポチッと公開できるわけではない、といったところですね。ここは本番利用を考えると、編集者さんの体験としてはちょっとハードルがあります。

それでも筆者は、「編集者にも開発者にもフレンドリーな、WordPressの次の選択肢としてかなり有望」と評価しています。デプロイもwranglerを使ってCloudflare Workersに乗せられるので、「インフラをなるべく持ちたくない」「でも柔軟にカスタマイズしたい」というチームには、今後かなり刺さりそうなCMSです。WordPressの運用にモヤモヤしている人は、名前だけでも覚えておくと良さそうですね。

。。,。。

さて4本目。「パラメータ4個で710M超えのFoundation Modelに勝った時系列予測手法FLAIRの全貌」という、データサイエンス勢歓喜な記事です。
タイトル通り、巨大な時系列向けのFoundation Modelに、たったパラメータ4個の統計モデルで戦いを挑んで、しかも精度で勝ってしまった、という話。その中心にあるのが、周期的な時系列を「周期Pで行列に並べると、だいたいrank-1になる」という観察です。

ざっくりいうと、売上とかアクセス数みたいな「周期性のあるデータ」を、行と列にキレイに並べ直してあげると、「形(季節パターン)」と「レベル(総量)」の掛け算みたいな構造で表せる、というイメージですね。FLAIRはこの構造を利用して、P×n個もあるはずの予測問題を、レベルの1本の系列にギュッと圧縮します。これによって、ノイズが減って、予測ステップも減って、さらにモデルの自由度も抑えられる、という「三重の圧縮」をやっている。

周期の選び方も、カレンダー由来の候補(週次、月次など)から、SVDの残差とBICで決めるという、かなり統計らしいアプローチ。Shape、つまり季節パターンの部分は、直近5周期の単純平均でいい、という結論になっていて、むしろ複雑な手法を試せば試すほど、精度が落ちたので全部不採用になった、というのが渋いところです。Levelの系列にはBox-CoxとNLinearという変換をかけて、少数の特徴量に対してRidge回帰を行うんですが、正則化係数αの選び方も工夫されていて、「Soft-Average GCV」という手法で、実質ハイパーパラメータをゼロにしています。

さらに1回のSVDで、点予測のベースとなるrank-1近似と、それ以外の「位相ノイズ」を同時に得て、そこから不確実性のある予測サンプルも生成できるようになっている。設計全体を貫く哲学が「MDL」、つまり「証拠のない複雑さはモデルに足さない」というもので、その結果として、「ノートPCとNumPy/SciPyだけで、巨大モデルと同等以上の精度を出す」ことに成功しているわけです。

とはいえ、為替のように周期性が弱いデータや、ゼロが多い間欠需要、季節パターンが時間とともに変化していく系列、外生変数を使いたいケースなどは苦手とされています。なので「万能な1本」ではなく、「周期構造がハマるところに刺さる、超軽量の切り札」みたいな立ち位置ですね。Foundation Model一辺倒になりがちな空気に、いい意味で冷水を浴びせるような記事でした。

。。,。。

そしてラスト、5本目。「AWS Security Agentを組織で活用していく上での考慮点を考えてみた」という記事です。
AWS Security Agentは、設計レビューからコードレビュー、さらにペネトレーションテストまで、AIが一気通貫でやってくれるという、新しいセキュリティサービスです。記事では、あの有名な脆弱なアプリ「Juice Shop」をECS Fargate上に構築して試していて、3時間37分・約181ドル相当で、かなり多くの脆弱性を洗い出せたとのこと。

面白いのは、「これを組織として導入する時に、何を考えておくべきか」をかなり実務目線で整理してくれているところです。まずデータ処理面では、「学習への利用や第三者提供はしない」「KMSで暗号化される」といった安心材料がある一方で、クロスリージョン推論がオフにできないなど、国内利用要件が厳しい組織は確認が必要そう、という指摘があります。

ID管理まわりでは、「IAM Identity Centerか、IAM専用アクセスか」をあらかじめ組織内で統一しておくこと、リージョンやSSOインスタンスの設計を間違えると後からツラいよ、という話。エージェントスペースは「1アプリケーション=1 Space」で切るのが推奨で、ドメイン単位や環境単位でどう分けるか、上限の100個に気をつけよう、という実務的な悩みどころも挙げられています。

ペネトレーションテストについては、「必ず非本番環境でやる」「Out-of-scope URLや、アクセスしてよいURLの範囲を厳密に定義する」といった、AIならではの注意点があります。AIは非決定的なので、1回の結果を盲信せず、複数回実行して人手の検証も組み合わせるべき、という姿勢ですね。認証情報も、専用・最小権限・短命なものを用意して、ログの扱いも含めて管理フローを決める必要があります。

GitHub連携では、「1 GitHub組織につき1 AWSアカウント」という制約や、利用できるリージョン、自動修正PRはus-east-1限定で、自動マージは禁止にしたほうが良い、といった具体的な運用ルールが提案されています。プライベートなアプリやマルチアカウント構成では、VPC設計やAWS RAMを使って、中央のセキュリティアカウントに集約する構成が有効とのこと。コスト面では、設計・コードレビューは月内の上限までは無料だけれど、ペンテストは1タスクあたり50ドル/時間かかるので、予約制や優先順位づけで計画的に回そう、とまとめられています。

「お、AIセキュリティ便利そう!」で飛びつく前に、組織としての設計と運用をちゃんと決めよう、というメッセージがしっかり伝わってくる記事でした。

。。,。。

というわけで、今日は全部で5本のトレンド記事をご紹介しました。
ざっとおさらいすると、まず1本目は「Claude Codeに仕様書を丸ごと渡すな」。AIには仕様書を丸投げするのではなく、チケット単位の「何を・なぜ・受け入れ基準」と、コードを最優先するルールづくりが大事だよ、という話でした。
2本目は、GitHub Issueとラベルを中心にした、自律開発パイプラインの実録。AIエージェントが要件定義から実装、レビュー、マージまでをバトンリレーする、という未来の開発現場が垣間見えました。
3本目は、Cloudflareの新CMS「EmDash」。WordPressライクな編集体験を残しつつ、AstroとWorkersでモダンに再構築された、有望な後継候補ですね。
4本目は、超軽量時系列予測モデル「FLAIR」。rank-1構造とMDL原理で、「証拠なき複雑さを足さない」スタイルが、巨大Foundation Modelに匹敵する精度を叩き出していました。
そして5本目が、AWS Security Agentの組織導入の勘所。データ処理、ID管理、ペンテストのルール、GitHub連携、コスト設計など、実務で迷いがちなところがきれいに整理されていました。

気になった記事があれば、ぜひ番組のショーノートから元の記事をチェックしてみてください。今日お話しした内容はあくまで入り口なので、細かい設定や具体的な手順、数式なんかは、ぜひ原文でじっくり追いかけてみてくださいね。

zenncastでは、番組の感想や、「こういうテーマを取り上げてほしい!」といったリクエストも大歓迎です。AI開発の失敗談から、ちょっとしたTipsまで、あなたの現場の声をぜひ聞かせてください。

それでは、そろそろお別れの時間です。
今日も聞いてくれてありがとうございました。ここまでのお相手はマイクでした。次回のzenncastで、またお会いしましょう。いってらっしゃい!

Related episodes

内容の近いエピソードを推薦しています