SAMPLE / サンプル制作例

Research

研究

私たちは、安全で解釈可能で、社会に資する AI のために、Alignment / Interpretability / Societal Impact / Frontier Evaluation の 4 軸で並走する研究機関です。

Publications

All papers.

論文一覧。

2024 - 2026 に発表した論文の全リスト。Featured バッジ付きは Top に掲載した代表論文。

INTERPRETABILITY2025Featured

Sparse Autoencoders Reveal Compositional Reasoning Circuits in Mythos

Mythos の内部表現を sparse autoencoder で展開し、合成的推論を担う回路を初めて系統的に同定した。

Hanako Sample, Taro Sample, et al.

NeurIPS 2025 (Oral)arXiv:2509.12345
ALIGNMENT2025Featured

Constitutional AI without Human Feedback: A Self-Critique Approach

AI 自身の自己批評ループのみで、人間ラベルなしに Constitutional AI 相当の整合性を達成する手法を提示。

Taro Sample, Saburo Sample, et al.

ICML 2025arXiv:2505.04567
FRONTIER EVALUATION2025Featured

Dangerous Capability Evaluations: A Methodology for Frontier Models

生物・サイバー・自律性の 3 領域における危険能力評価プロトコルを公開。第三者再現可能な形で詳述。

Saburo Sample, Hanako Sample, et al.

ICLR 2025arXiv:2502.08901
INTERPRETABILITY2024

Mechanistic Interpretability of Multimodal Attention

画像とテキストの相互注意機構の内部回路を解析。

Hanako Sample, et al.

NeurIPS 2024 (Spotlight)arXiv:2411.03210
SOCIETAL IMPACT2024

Economic Impact of Foundation Models on Knowledge Work

基盤モデルの普及が知識労働に与える経済的影響を 47 業種で定量化。

Jiro Sample, Hanako Sample

AAAI 2024arXiv:2406.07712
ALIGNMENT2024

Reward Modeling at Scale: Lessons from Mythos Training

報酬モデリングのスケーリング則と失敗モードを Mythos 訓練から系統的に分析。

Taro Sample, et al.

NeurIPS 2024arXiv:2410.11122
SAMPLE / サンプル制作例