zenncast

みなさん、こんにちは！「zenncast」のマイクです。今日は2024年7月15日、月曜日です。Zennで今日トレンドの記事を紹介していきますよ。

前回は「Rye × uvでPython環境と機械学習環境を整える」、「Tailwind CSS初心者が絶対ハマる落とし穴」、「GitHub Profile用にGit Graph風の職務経歴書を作った」といった内容をご紹介しましたね。Python環境、CSSの落とし穴、そしてGitHubプロフィールの工夫についてお話しました。

さて、今日は5つの記事をご紹介します。それでは、まず1つ目の記事です。

タイトルは「多店舗展開するジムの会員入退室管理を材料費数万円で実現し、２４時間営業にした話」。

家族経営のフィットネスジムから24時間営業の入退室管理システムを低予算で実現する依頼を受けた話です。通常のシステムは一店舗あたり数百万から一千万かかるところを、IoT技術を活用して一店舗あたり10万円台で実現しました。

まず、既存の3店舗でスタッフが常駐する営業時間を24時間営業に変更し、会員管理システムを自作しました。ICカードをかざすとAPIで会員ステータスを確認し、正常ならば自動で鍵を開錠するシステムを構築しました。共連れ防止のため、カメラで入退室の様子を記録する仕組みも取り入れました。

市販の開錠システムを検討しましたが、会員管理システムとの連携や電池切れのリスクがあるため、自前で実装を決定。使用機器にはNOAKEL端末やRaspberryPiとICカードリーダーを使用しました。

結果として、材料費数万円から十数万円で24時間営業を可能にし、6店舗で5年間大きなトラブルなく運用中とのことです。このシステムにより、多店舗展開するジムの24時間営業を実現し、低コストで効率的な運営が可能になりました。

。。。次に、2つ目の記事です。

タイトルは「2023-24年のKaggleコンペから学ぶ、NLPコンペの精度の上げ方」。

2023-24年に開催されたKaggleのNLPコンペで得られた技術的なヒントとベストプラクティスをまとめた記事です。主なコンペとしてLLM Science ExamやCommonlit2、LLM Detect AI Generated Textなどが紹介されています。

多くのコンペでHuggingfaceのTrainerが使われており、特にChrisのNotebookが参照されています。精度向上のポイントとして、データ増加やTokenizerの工夫、モデルの選択などが挙げられています。特にDeBERTa-v3やLlama-2が人気です。

また、データ分割やパラメーター調整、アンサンブル、後処理の重要性も強調されています。公開Wikipediaデータの処理ミスを修正し、要約文＋原文の入力で要約文のPoolingのみ使用するなど、銀圏と金圏の差分も詳しく紹介されています。

学習時のメモリ節約方法として、`fp16=True`や`per_device_train_batch_size=1`、`gradient_accumulation_steps=4`の設定などが紹介されています。これらの情報は、KaggleのNLPコンペで高精度なモデルを構築するための貴重な参考資料です。

。。。次に、3つ目の記事です。

タイトルは「【T3 Stack】フロントエンド・バックエンドTypescript開発入門」。

この記事では、フロントエンドとバックエンドの両方をTypeScriptで開発するためのT3 Stackを紹介しています。T3 Stackは、Next.js、tRPC、NextAuth.js、Prisma、Tailwind CSS、TypeScriptの6つの技術スタックで構成され、簡潔さ、モジュール性、フルスタックの型安全性を追求しています。

プロジェクト作成には、CLIツール「create-t3-app」を使用します。初めに、create-t3-appを使ってプロジェクトの雛形を生成し、NextAuth.jsの認証設定やPrismaのデータベース設定を行います。認証にはDiscordアカウントを使用し、.envファイルに必要なIDやシークレットを設定します。Prismaでデータベースの設定を行い、DBのテーブルを作成します。

tRPCは、サーバーとクライアント間で型安全なAPIを構築するためのフレームワークで、サーバー側のAPIはZodライブラリを使ってスキーマバリデーションを行います。サーバーとクライアントの両方でtRPCクライアントを設定し、Next.jsのAPIルートハンドラーでクライアントからのリクエストを処理します。

全てをTypeScriptで書くことで、型安全性を保ちながら開発を進めることができ、プロジェクトの管理や拡張が容易になります。T3 Stackを使えば、個人アプリケーションの開発も迅速に進めることができます。

。。。次に、4つ目の記事です。

タイトルは「`statsmodels`と`sklearn`でのロジスティック回帰の挙動の違いについて」。

Pythonでロジスティック回帰を実行する際の`sklearn`と`statsmodels`の挙動の違いについて解説しています。具体的には、`seaborn`の`iris`データセットを使用して、`versicolor`種であるかどうかを判別するモデルを構築します。

`statsmodels.api.Logit`では正則化がなく、`sklearn.linear_model.LogisticRegression`はデフォルトでL2正則化が適用されています。この違いが回帰係数の値に大きな影響を与えます。`sklearn`の正則化パラメータ`C`を非常に大きく設定するか、正則化を無効にすることで、`statsmodels`の結果に近い回帰係数を得ることができます。

結論として、統計モデリングにおいてはパラメータの一致性・不偏性が重要となる場面があるため、正則化のないモデルを使う方が適している場合があります。`sklearn`は機械学習の領域で広く使われていますが、統計モデリングを行う際には正則化項に注意が必要です。また、`statsmodels`は回帰診断やパラメータの有意性検定が可能であり、Rに親しんでいる場合にはこちらを利用する方が良いでしょう。

。。。最後に、5つ目の記事です。

タイトルは「【Go言語】におけるテスト駆動開発の実践：マイグレーションファイル作成からSQLインジェクション対策まで」。

この記事では、Go言語を用いたテスト駆動開発（TDD）の実践方法について解説しています。具体的には、任意テキスト音声再生機能を持つアプリケーションのDB設計からマイグレーションファイル作成、テストコードの作成、そしてSQLインジェクション対策までをカバーしています。

まず、データベースのマイグレーションファイルを作成します。今回は、ユーザーが作成したフレーズを管理する`user_phrases`テーブルと、そのフレーズの再生スケジュールを管理する`phrase_schedules`テーブルを新規作成します。具体的なSQLコマンドも示されています。

次に、テストコードの作成方法について説明します。テスト環境として、dockertestを用いて実際のMySQLコンテナを起動し、データベースに接続する方法が紹介されています。これにより、テストコード内で本番環境に近い形でのDB操作が可能となります。具体的なテストコード例として、`user_phrases_db_test.go`ファイルにおけるユーザーフレーズの作成と取得のテストが示されています。

最後に、SQLクエリの作成方法についても触れています。SQLインジェクション対策として、文字列連結ではなくプレースホルダーを使うことが重要であると強調されています。そのために、軽量なクエリビルダーライブラリである`squirrel`の利用が推奨されています。

この記事を通じて、Go言語でのテスト駆動開発の基本的な流れと、DB設計やSQLインジェクション対策の具体的な方法を学ぶことができます。

。。。さて、今日は5つの記事をご紹介しました。どれも興味深い内容でしたね。詳しい内容はショーノートに書いてあるので、そちらもぜひチェックしてみてください。そして、番組の感想もお待ちしていますよ。それでは、次回またお会いしましょう！