国内AIニュース
AGENTS.mdの設定だけではAIエージェントの品質が安定しない理由を解説。Martin Fowlerの論文を引用し、明示的な制約だけでなく、AIにどう振る舞わせるかの根本的な設計の重要性に触れています。
AIガバナンスにおける「Human-in-the-loop」の限界と、責任経路工学における「Human Return Point」の概念を解説。人間がループに参加するだけでは不十分な理由と対策を論じます。
Claude Codeを複数同時に動かす際の作業衝突問題に対する解決策。git worktreeを用いて物理的にディレクトリを分離し、環境を分けることで安全に並行開発する方法を提案します。
開発プロジェクトの「振り返り」をAIエージェントとの対話で半自動化するプロジェクト「Clio」の紹介記事。執筆のコストを削減し、開発記録を効率的に言語化する方法を提案します。
LLMの出力の揺らぎ(非決定性)を前提とし、プロンプトチューニングの効果を定量的に評価する方法を紹介。正解が定義可能なシステムでの機械学習的な評価手法の応用について解説します。
ローカルLLMを使用してCodex CLIを駆動させる方法を解説。Ubuntu環境を中心に、OpenAI互換APIを利用してエージェント性能を評価するための構築手順と背景を紹介する。
複数のAIコーディングエージェントを並行運用する際のターミナル管理の課題を指摘。各エージェントの状態や役割が見えなくなる問題に対し、現状の運用と課題を考察しています。
Googleの「Gemini 3.5 Pro」の性能レビュー。論理的推論やChain-of-Thoughtが強化されており、複雑なアーキテクチャ図の読解力が飛躍的に向上したことを紹介しています。
非エンジニアがAIを活用してWebアプリを開発した記録。AIの力を借りて現代的な技術スタックを習得し、ゼロからWebアプリを完成させるまでの過程と思考法を共有します。
GPT-5.5とClaude Opus 4.7の性能差と役割分担についての分析。自走能力に長けたGPTと、精密な作業が得意なClaudeをプロジェクトの工程ごとに使い分ける戦略を解説します。
CachyOS上でllama.cppをソースビルドしてLLM環境を構築する手順。nVidiaドライバ設定の手間を省き、MTPやD-Flashなどの最新最適化手法を素早く導入するための最適環境を紹介。
さくらのAI EngineをOpenAI互換APIとして利用する際の注意点を解説。ベースURLの差し替えで導入できる一方、with_schemaやtools使用時に発生する具体的な挙動の差異と対策をまとめる。
Qwen3、LLM-jp-4、Gemma3の3モデルを物理学の専門知識で比較検証。汎用ベンチマークではなく、専門領域での回答精度と誤り方を赤入れし、実務利用の観点からモデルの特性を深掘りする。