2024

FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs.

[DOI]

Keyu An

,

Qian Chen

,

Chong Deng

,

Zhihao Du

,

Changfeng Gao

,

Zhifu Gao

,

Yue Gu

,

Ting He

,

Hangrui Hu

,

Kai Hu

,

Shengpeng Ji

,

Yabin Li

,

Zerui Li

,

Heng Lu

,

Haoneng Luo

,

Xiang Lv

,

Bin Ma

,

Ziyang Ma

,

Chongjia Ni

,

Changhe Song

,

Jiaqi Shi

,

Xian Shi

,

Hao Wang

,

Wen Wang

,

Yuxuan Wang

,

Zhangyu Xiao

,

Zhijie Yan

,

Yexin Yang

,

Bin Zhang

,

Qinglin Zhang

,

Shiliang Zhang

,

Nan Zhao

,

Siqi Zheng

CoRR, 2024

2023

FunASR: A Fundamental End-to-End Speech Recognition Toolkit.

[DOI]

Zhifu Gao

,

Zerui Li

,

Jiaming Wang

,

Haoneng Luo

,

Xian Shi

,

Mengzhe Chen

,

Yabin Li

,

Lingyun Zuo

,

Zhihao Du

,

Zhangyu Xiao

,

Shiliang Zhang

CoRR, 2023

2018

Hybrid CTC-Attention based End-to-End Speech Recognition using Subword Units.

[DOI]

Zhangyu Xiao

,

Zhijian Ou

,

Wei Chu

,

Hui Lin

Proceedings of the 11th International Symposium on Chinese Spoken Language Processing, 2018