Research

研究

私たちは、安全で解釈可能で、社会に資する AI のために、Alignment / Interpretability / Societal Impact / Frontier Evaluation の 4 軸で並走する研究機関です。

Research

Four teams. One mission.

4 つのチーム、ひとつの使命。

私たちは、安全で解釈可能で社会に資する AI のために、独立した 4 つの研究チームを並走させる。各チームは独自の論文発表とコードを公開する責任を持つ。

01 / RESEARCH TEAM

Alignment

アライメント

AI システムが人類の意図と価値観に整合した行動を取るための、訓練手法・評価・理論を研究する。

RLHFConstitutional AIReward Modeling

Team Lead

サンプル太郎

Co-founder, CEO

Papers / yr

02 / RESEARCH TEAM

Interpretability

解釈可能性

ニューラルネットワーク内部の表現と回路を可視化・解釈する。「ブラックボックス」を「ガラス箱」にする。

Sparse AutoencodersCircuitsMechanistic Analysis

Team Lead

サンプル花子

Chief Scientist

Papers / yr

03 / RESEARCH TEAM

Societal Impact

社会的影響

AI 普及が労働市場・教育・民主主義・グローバルサウスへ与える影響を、政策チームと共に評価する。

Economic ImpactPolicyGlobal South

Team Lead

サンプル次郎

Head of Policy

Papers / yr

04 / RESEARCH TEAM

Frontier Evaluation

フロンティア評価

モデルの危険な能力 (生物 / サイバー / 自律性) を独立評価し、リリース判断の科学的根拠を作る。

Red TeamingDangerous CapabilitiesEvals

Team Lead

サンプル三郎

Head of Frontier Eval

Papers / yr

EXPLORE ALL RESEARCH

Publications

All papers.

論文一覧。

2024 - 2026 に発表した論文の全リスト。Featured バッジ付きは Top に掲載した代表論文。

INTERPRETABILITY2025Featured

Sparse Autoencoders Reveal Compositional Reasoning Circuits in Mythos

Mythos の内部表現を sparse autoencoder で展開し、合成的推論を担う回路を初めて系統的に同定した。

Hanako Sample, Taro Sample, et al.

NeurIPS 2025 (Oral)arXiv:2509.12345

ALIGNMENT2025Featured

Constitutional AI without Human Feedback: A Self-Critique Approach

AI 自身の自己批評ループのみで、人間ラベルなしに Constitutional AI 相当の整合性を達成する手法を提示。

Taro Sample, Saburo Sample, et al.

ICML 2025arXiv:2505.04567

FRONTIER EVALUATION2025Featured

Dangerous Capability Evaluations: A Methodology for Frontier Models

生物・サイバー・自律性の 3 領域における危険能力評価プロトコルを公開。第三者再現可能な形で詳述。

Saburo Sample, Hanako Sample, et al.

ICLR 2025arXiv:2502.08901

INTERPRETABILITY2024

Mechanistic Interpretability of Multimodal Attention

画像とテキストの相互注意機構の内部回路を解析。

Hanako Sample, et al.

NeurIPS 2024 (Spotlight)arXiv:2411.03210

SOCIETAL IMPACT2024

Economic Impact of Foundation Models on Knowledge Work

基盤モデルの普及が知識労働に与える経済的影響を 47 業種で定量化。

Jiro Sample, Hanako Sample

AAAI 2024arXiv:2406.07712

ALIGNMENT2024

Reward Modeling at Scale: Lessons from Mythos Training

報酬モデリングのスケーリング則と失敗モードを Mythos 訓練から系統的に分析。

Taro Sample, et al.

NeurIPS 2024arXiv:2410.11122

JOIN THE RESEARCH TEAM →