最新エージェントに難解言語を解かせたら、答えをカンニングしてきた話
最新エージェントに難解言語を解かせたら、答えをカンニングしてきた話
元記事を開く3行要約
- Researchに関する国内読者にも追いやすいニュースです。
- ! 2026年6月、手元のCodex(OpenAIのコーディングエージェント)で実測した記録です。モデルやエージェントは更新が速いので、数字は「この時点のこの環境」のものとして読ん...
- 元記事で一次情報を確認し、導入判断や調査メモに落とし込むのがよさそうです。
実務コメント
研究ニュースはすぐ導入するより、半年後の機能やツール選定の予兆としてストックしておく価値があります。
観測メモ
! 2026年6月、手元のCodex(OpenAIのコーディングエージェント)で実測した記録です。モデルやエージェントは更新が速いので、数字は「この時点のこの環境」のものとして読んでください。検証コードと手順は最後に置きます。 はじまりは、満点だった Brainfuckの問題20問を、Codexに解かせていました。論文の追試のつもりでした。 採点スクリプトを...
外部RSS本文は信頼しない入力として扱っています。HTML表示や本文の長文転載はしていません。