Sparse Autoencoders Reveal Compositional Reasoning Circuits in Mythos
Mythos の内部表現を sparse autoencoder で展開し、合成的推論を担う回路を初めて系統的に同定した。
Hanako Sample, Taro Sample, et al.
研究
私たちは、安全で解釈可能で、社会に資する AI のために、Alignment / Interpretability / Societal Impact / Frontier Evaluation の 4 軸で並走する研究機関です。
4 つのチーム、ひとつの使命。
私たちは、安全で解釈可能で社会に資する AI のために、独立した 4 つの研究チームを並走させる。各チームは独自の論文発表とコードを公開する責任を持つ。
論文一覧。
2024 - 2026 に発表した論文の全リスト。Featured バッジ付きは Top に掲載した代表論文。
Mythos の内部表現を sparse autoencoder で展開し、合成的推論を担う回路を初めて系統的に同定した。
Hanako Sample, Taro Sample, et al.
AI 自身の自己批評ループのみで、人間ラベルなしに Constitutional AI 相当の整合性を達成する手法を提示。
Taro Sample, Saburo Sample, et al.
生物・サイバー・自律性の 3 領域における危険能力評価プロトコルを公開。第三者再現可能な形で詳述。
Saburo Sample, Hanako Sample, et al.
画像とテキストの相互注意機構の内部回路を解析。
Hanako Sample, et al.
基盤モデルの普及が知識労働に与える経済的影響を 47 業種で定量化。
Jiro Sample, Hanako Sample
報酬モデリングのスケーリング則と失敗モードを Mythos 訓練から系統的に分析。
Taro Sample, et al.