zenncast

どうも、マイクです。おはようございます。
ただいまの時間は、2026年2月10日、火曜日の朝7時をちょっと回ったところです。
ここからの時間は「zenncast」、きょうもZennのトレンド記事をゆるっと楽しく紹介していきます。

今日はお便り紹介はお休みで、そのぶんたっぷり記事を紹介していきますね。

さて、きょうピックアップする記事は全部で5本です。
開発環境のお話から、AIエージェント、OCR、そしてデザイナーさん向けのチュートリアルまで、かなりバラエティ豊かなラインナップになってます。

じゃあさっそく、1本目からいきましょう。

1本目は「WSLからネイティブLinuxに乗り換えてよかったこと」という記事です。
筆者さんはもともとWSLに大きな不満はなかったんですが、ビッグデータ寄りの分析をしていると、とにかくメモリ不足に悩まされていたそうなんですね。で、思い切ってネイティブLinuxに引っ越してみたら、「想像以上に快適だった」と。いちばん効いているのがメモリの余裕で、WSLだと途中で落ちていたような重い分析コードが、ちゃんと最後まで走るようになったと書かれています。これのおかげで、細かい最適化に時間を使う前に、とりあえず実験をどんどん回せるようになった、つまり開発スピードが上がった、というのが大きなポイントです。
さらに、GPUまわりのトラブルが減って「とりあえず試してみる」がやりやすくなったこと、ghostty や Zed みたいな Linux 向けアプリを気軽に導入できるようになったこともメリットとして挙げられています。デスクトップ環境だと GNOME の情報密度と操作感を高く評価していて、一方で Hyprland の動画や dotfiles を眺めて、Linux デスクトップ自体を“趣味として”楽しんでいる感じも伝わってきます。
環境再現には Nix と home-manager を使っていて、ブラウザの Chrome や Obsidian まで含めて構成をコードで管理できる安心感がある、と。ただ、Nix を使わずに手作業でカスタマイズすると、再インストールやPC移行のときの再構築コストがかなり重くなるよという警鐘も鳴らしています。総じて、重い処理を回したい人や環境の再現性を重視する人にはネイティブLinuxはすごく相性がいい。一方で、今のWSL環境で特に困っていない人は、無理して乗り換える必要はないよ、というバランスの良い結論で締められていました。。.。。

2本目は「Agent TeamsとHooksの統合で分かったこと」という記事。
こちらは Claude Code の Agent Teams と Hooks API を組み合わせて、本気で制御してみた技術検証記事になっています。Agent Teams 自体は、並列実行やタスク管理を“だいたい”いい感じにやってくれるんですけど、タスクが本当に終わったかどうかの判定が曖昧だったり、コンテキストが途中で薄まってしまったり、セッションを閉じると状態が消えたり、トークンコストを細かくコントロールしづらかったりと、プロダクション目線では惜しいところが多いんですよね。
この記事では、専用のHook、具体的には SubagentStart と SubagentStop、TaskCompleted、TeammateIdle、そして PreToolUse を組み合わせて、5つのフェーズで検証していきます。そのなかで、タスク完了や idle への遷移、ツール実行を「確定的にブロックできる」というのが大きな発見としてまとまっています。PostToolUse や UserPromptSubmit だと、事後に「それはダメでしたよ」と言うしかなくて、手遅れになりがちなんですよね。一方で TaskCompleted と TeammateIdle は exit 2、PreToolUse は JSON で decision を返して exit 0 というふうに、Hookごとに制御の仕方が違うことが、きちんとしたフロー設計では重要だと指摘しています。
さらに SubagentStart でのコンテキスト注入のクセや、SubagentStop で transcript を取得して、SessionStart でセッションを復旧することで、状態のスナップショットと復元もできるようになったと。結果として、並列実行や大まかなタスク分割は Agent Teams に任せつつ、Hooks はフロー保証、コスト制御、競合防止、品質ゲート、それから状態の保存と復旧に特化させる「ハイブリッド構成」が現実解だとまとめています。とはいえ、PreToolUse の段階ではチームメイトを個別に識別できなかったり、コンパクション対策や大規模チームでの性能問題など、今後の課題もちゃんと整理されていて、実践的な内容になっていました。。.。。

3本目は「GLM-OCR（LLM）と Tesseract を同じ画像で比較してわかったこと」という記事。
これ、OCRが気になっている人にはめちゃくちゃ面白い比較です。4冊分の書籍画像を使って、LLMベースの GLM-OCR と、昔からある Tesseract を同じ画像でガチ比較しています。まず文字数の統計を見ると、GLM-OCR のほうが平均文字数は多いんですが、その一因として、約3割強のファイルで「同じ文の繰り返し出力」が起きている、つまり水増しされちゃっているケースが多いと。逆に Tesseract は繰り返しがほとんどなくて、長文の連続テキストをひたすら素直に読み上げるのが得意、かつ安定しているという結果です。
レイアウトの複雑さに関しては、ここで LLM ベースの真価が出ていて、図表、吹き出し、装飾文字、複数カラムといった“人間が見てもややこしい”紙面を、画像全体を理解しながら再構成できる GLM-OCR が明確に優位。Tesseract は psm の設定に強く依存していて、それが合わないと取りこぼしや順番の崩れが出やすいと分析されています。一方で GLM-OCR は max_tokens の制約と繰り返し癖があるので、日本語だとだいたい 2000〜4000 文字くらいが現実的な上限で、それ以上を扱うなら画像を分割したり、後処理で繰り返しを除去したりする工夫が必要になると。
実用面でいうと、環境構築や処理速度、マシンへの負担の軽さでは、やっぱり CPU だけで動く Tesseract に軍配が上がります。GLM-OCR は GPU が必要で速度も遅めなんですが、そのぶん JSON 形式など、よりリッチな構造化出力に対応しているのが魅力です。結論としては、「図表や複雑レイアウトは GLM-OCR、長文の書き起こしは Tesseract」という使い分けが現実的な落としどころだよ、ときれいに整理されていました。用途ごとにツールを組み合わせる、という発想がいいですよね。。.。。

4本目は「Claude Code の Agent Teams を使って、Agent Teams の記事を書いてみた」という、ちょっとメタなタイトルの記事です。
Claude Code v2.1.32 から追加された実験的機能「Agent Teams」を使って、その Agent Teams 自身についての記事を書かせてみた、という内容になっています。Agent Teams は、複数の Claude Code インスタンスをチームとして並列動作させる仕組みで、チームリード、チームメイト、タスクリスト、メールボックスといった構成要素を持っています。従来のサブエージェントと違うのは、メンバー同士が直接メッセージをやり取りできて、共有のタスクリストを見ながら自己調整するスタイルになっているところですね。
設定としては、環境変数を有効にしてから、自然言語で「こんなチーム作って」と依頼すると、リードとメイトたちが用意される流れ。動作モードも面白くて、ひとつのターミナル内で切り替えながら使う in-process モードと、tmux や iTerm2 のペインを分割して、メンバーごとにペインを割り当てる split panes モードがあります。さらに Delegate モードにすると、リードは自分では作業しない“調整役専任”にもできるらしいです。
この記事のデモでは、リサーチャー、ライター、レビュアーの3人チームを組んで、実際にこの記事そのものを書かせています。調査 → 執筆 → レビュー → 修正 → 最終配置、という流れをタスクの依存関係でつないで、自動的に進行させているのがポイント。トークン消費はメンバー数に比例して増えるので、最終的なコストは約17ドル台。ただし多くはキャッシュヒットだったとのことです。
メリットとしては、調査と執筆を分けられること、独立した視点でレビューが入ること、そして依存関係を自動的に管理してくれるので、人間が「次何するんだっけ？」と考えなくてよくなるところが挙げられています。一方で、トークンコストがかさみやすいこと、同じファイルを同時編集するとコンフリクトの危険があること、会話履歴が完全共有ではないため情報の行き違いが起きうることなどの注意点も。結論として、コードレビューやリサーチ＋ドキュメント作成のような「並列化しやすいタスク」には向いていて、逐次依存が強かったり、小規模かつ同一ファイルを頻繁に触るような作業にはあまり向かないよと、使いどころを丁寧に整理してくれていました。。.。。

そして5本目、ラストは「デザイナーのための Cursor 入門チュートリアル ~ プロトタイピングしてみよう！編 ~」です。
これはコード未経験、あるいはほぼ初心者のデザイナーさんに向けて、AI 搭載エディタ Cursor と shadcn/ui、それから Next.js を組み合わせて、「求人検索サイトのトップページ」をコードでプロトタイピングしてみよう、というチュートリアル記事です。最初に pnpm や Node.js を入れるところから始まって、ターミナルの基本操作、shadcn/ui を使ったプロジェクトの初期化まで、かなり手取り足取りガイドしてくれます。
そのうえで、Button や Card など必要なコンポーネントを追加していって、Cursor の Agent に日本語でプロンプトしながら app/page.tsx をどんどん生成・修正していく流れが紹介されています。面白いのは、globals.css のデザイントークンを使って、色やフォント、角丸といったスタイルを一括管理し、自社ブランドに合わせて変えていくところ。Figma でコンポーネントやスタイルガイドを管理する感覚にかなり近いので、デザイナー視点でも直感的に理解しやすいようになっています。
さらに Git を使ったコミットやブランチ運用で、デザインの「セーブポイント」を作る方法も触れられていて、「ここまではうまくいってるからいったん保存しよう」とか、「別案を試すときにブランチを分けよう」といった、実務に近い運び方も学べる構成です。困ったときに AI にどう聞けばいいのか、具体的なプロンプト例が書いてあるのもありがたいポイントで、「まずは手を動かして体験してみる」を大事にしながら、そこから Next.js の理解や AI 制御のしかたにステップアップしていける“入り口”として、とても良くまとまっているチュートリアルでした。

というわけで、きょうの「zenncast」は、
WSL からネイティブ Linux へのお引っ越しの話、
Agent Teams と Hooks を組み合わせたガチめの制御テク、
GLM-OCR と Tesseract の実践的な比較、
Agent Teams に記事を書かせてみたメタな実験レポート、
そしてデザイナーさん向けの Cursor 入門チュートリアル、
この5本を駆け足でご紹介しました。

気になった記事があれば、詳しくは番組のショーノートにタイトルをまとめておきますので、あとでゆっくりチェックしてみてください。
番組の感想や、「こんなテーマを取り上げてほしい」といったリクエストもお待ちしています。普段どんなふうに開発しているか、どんなツールを使っているかなんかも、ぜひ教えてください。

それでは、きょうも良い一日をお過ごしください。
お相手はマイクでした。また次回の「zenncast」でお会いしましょう。