Huck Yang｜テキスト空間における音声の想像力

概要

マルチモダリティ、音声のテキスト空間アライメント、そしてボイスエージェントに関心があります。NVIDIA Research と Amazon ASR-LM に在籍し Andreas Stolcke と協働、また Google（現 DeepMind Audio）の研究インターンとして Tara N. Sainath のチームで Bo Li・Yu Zhang の共同ホストのもとで研究しました。

🎓 博士論文は、プライバシー保護かつロバストな音声モデル適応（現在でいうポストトレーニング）に関するもので、Chin-Hui Lee 教授の指導を受けました。

🧬 ジョージア工科大学の前は、Jesper Tegnér 教授の進化的機械学習グループを訪問し、TSMC で混合信号 IC 設計のインターンを経験しました。

マルチモーダル・ポストトレーニング: Nemotron-Omni-30B [GTC 26] の長尺オムニ／音声トレースを共同で主導し、OmniVinci-9B [ICLR 26] の音声エージェントアライメント、さらに音声上の RL ポストトレーニング [ICLR 25, 24] に取り組みました。多言語 ASR に関する Google 関連の特許 [ICASSP 23]、[Interspeech 23] ではベストペーパーにノミネート。凍結した音響モデルへの初のボイスプロンプティング手法 [ICML 21]。
ボイスエージェント: n-best 仮説に基づく初の生成的 ASR 誤り訂正（GER）シリーズ [ASRU 23] と Whispering-LLaMA [EMNLP 23]、HyPoradise [NeurIPS 23]、音声ポストトレーニング [ICLR 24]。マルチモーダル訂正に関する [ACL 25] で最優秀産業論文の佳作賞 🎖️。自己反省エージェント Speech-Hands [ACL 26]。

⚛️ 余談: 趣味として量子機械学習にも取り組んでおり、変分回路に基づく初の音声 [ICASSP 21] と言語理解 [ICASSP 22] を生み出し、2019 年に Xanadu AI Quantum ML Award を受賞しました。最近では LLM の量子パラメータ適応 [ICLR 25] に取り組んでいます。

チュートリアル

EMNLP 2025

Spoken Conversational Agents with Large Language Models

ボイスエージェントと、テスト時スケーリングの楽しみ。

[スライド] [動画]

Interspeech 2025

Efficient Adaptation in Speech Language Modeling

音声モデルのためのポストトレーニング。

[スライド] [リポジトリ]

Interspeech 2023

Cross-Modal Alignment for Voice Foundational Models

マルチモーダル音声と音声言語モデル。

[スライド] [動画]

記事

2026年7月

Inside Inkling: Audio Design

フロンティア級のオープンモデルはどう聴くのか。エンコーダフリーの音声パス（d-mel、毎秒20トークン）とインターリーブ推論を、一歩ずつ図解。

[読む →]