Hao Huang

Orcid: 0000-0001-6604-0951

Affiliations:

Xinjiang Univerity, School of Information Science and Engineering, Xinjiang Provincial Key Laboratory of Multilingual Information Technology, Urumqi, China
Shanghai Jiao Tong University, Department of Electronic Engineering, Shanghai, China (PhD 2008)

According to our database¹, Hao Huang authored at least 62 papers between 2009 and 2024.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2024

GLFER-Net: a polyphonic sound source localization and detection network based on global-local feature extraction and recalibration.

[BibT_eX]

[DOI]

EURASIP J. Audio Speech Music. Process., December, 2024

CEA-Net: a co-interactive external attention network for joint intent detection and slot filling.

[BibT_eX]

[DOI]

Neural Comput. Appl., August, 2024

IIFC-Net: A Monaural Speech Enhancement Network With High-Order Information Interaction and Feature Calibration.

[BibT_eX]

[DOI]

IEEE Signal Process. Lett., 2024

Scene text recognition with context-aware autonomous bidirectional iterative models.

[BibT_eX]

[DOI]

J. Intell. Fuzzy Syst., 2024

Listen to the Speaker in Your Gaze.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Cybernetics and Intelligent Systems, 2024

Graph-based Dynamic Domain Selection for Dialogue State Tracking.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2024

Improving Pointer Network based Dialogue State Tracking via Dual Hierarchical Selective Augmentation.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2024

Phase Continuity-Aware Self-Attentive Recurrent Network with Adaptive Feature Selection for Robust VAD.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Domain-Slot Aware Contrastive Learning for Improved Dialogue State Tracking.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Introducing Multilingual Phonetic Information to Speaker Embedding for Speaker Verification.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

SMMA-Net: An Audio Clue-Based Target Speaker Extraction Network with Spectrogram Matching and Mutual Attention.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

Fact-Aware Summarization with Contrastive Learning for Few-Shot Dialogue State Tracking.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2024

2023

Neural RAPT: deep learning-based pitch tracking with prior algorithmic knowledge instillation.

[BibT_eX]

[DOI]

Int. J. Speech Technol., December, 2023

W2VC: WavLM representation based one-shot voice conversion with gradient reversal distillation and CTC supervision.

[BibT_eX]

[DOI]

EURASIP J. Audio Speech Music. Process., December, 2023

SE-Bridge: Speech Enhancement with Consistent Brownian Bridge.

[BibT_eX]

[DOI]

CoRR, 2023

GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System.

[BibT_eX]

[DOI]

Proceedings of the ACM Multimedia Asia 2023, 2023

Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization.

[BibT_eX]

[DOI]

Proceedings of the ACM Multimedia Asia 2023, 2023

Self-supervised Learning Representation based Accent Recognition with Persistent Accent Memory.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

MTANet: Multi-band Time-frequency Attention Network for Singing Melody Extraction from Polyphonic Music.

[BibT_eX]

[DOI]

Proceedings of the 24th Annual Conference of the International Speech Communication Association, 2023

Improved Keyword Recognition Based on Aho-Corasick Automaton.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2023

CRA-DIFFUSE: Improved Cross-Domain Speech Enhancement Based on Diffusion Model with T-F Domain Pre-Denoising.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Multimedia and Expo, 2023

Speech Topic Classification Based on Pre-trained and Graph Networks.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Multimedia and Expo, 2023

A Joint Network Based on Interactive Attention for Speech Emotion Recognition.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Multimedia and Expo, 2023

Speech-Text Based Multi-Modal Training with Bidirectional Attention for Improved Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

Speakeraugment: Data Augmentation for Generalizable Source Separation via Speaker Parameter Manipulation.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

SRTNET: Time Domain Speech Enhancement via Stochastic Refinement.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

Hierarchical Softmax for End-To-End Low-Resource Multilingual Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2023

2022

Hierarchic Temporal Convolutional Network With Cross-Domain Encoder for Music Source Separation.

[BibT_eX]

[DOI]

IEEE Signal Process. Lett., 2022

A bimodal network based on Audio-Text-Interactional-Attention with ArcFace loss for speech emotion recognition.

[BibT_eX]

[DOI]

Speech Commun., 2022

Multi-stage music separation network with dual-branch attention and hybrid convolution.

[BibT_eX]

[DOI]

J. Intell. Inf. Syst., 2022

Intermediate-layer output Regularization for Attention-based Speech Recognition with Shared Decoder.

[BibT_eX]

[DOI]

CoRR, 2022

Internal Language Model Estimation based Language Model Fusion for Cross-Domain Code-Switching Speech Recognition.

[BibT_eX]

[DOI]

CoRR, 2022

Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition.

[BibT_eX]

[DOI]

CoRR, 2022

A Multi-grained based Attention Network for Semi-supervised Sound Event Detection.

[BibT_eX]

[DOI]

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition.

[BibT_eX]

[DOI]

Proceedings of the 23rd Annual Conference of the International Speech Communication Association, 2022

Investigating Effective Domain Adaptation Method for Speaker Verification Task.

[BibT_eX]

[DOI]

Proceedings of the Neural Information Processing - 29th International Conference, 2022

GhostVec: Directly Extracting Speaker Embedding from End-to-End Speech Recognition Model Using Adversarial Examples.

[BibT_eX]

[DOI]

Xiaojiao Chen

Sheng Li

Hao Huang

Proceedings of the Neural Information Processing - 29th International Conference, 2022

Mining Hard Samples Locally And Globally For Improved Speech Separation.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2022

Minimum Word Error Training For Non-Autoregressive Transformer-Based Code-Switching ASR.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2022

Virtual Fully-Connected Layer for a Large-Scale Speaker Verification Dataset.

[BibT_eX]

[DOI]

Proceedings of the Biometric Recognition - 16th Chinese Conference, 2022

2021

Dual Attention Network for Pitch Estimation of Monophonic Music.

[BibT_eX]

[DOI]

Wenfang Ma

Ying Hu

Hao Huang

Symmetry, 2021

A gating context-aware text classification model with BERT and graph convolutional networks.

[BibT_eX]

[DOI]

Weiqi Gao

Hao Huang

J. Intell. Fuzzy Syst., 2021

Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion.

[BibT_eX]

[DOI]

Digit. Signal Process., 2021

Approaches to Improving Recognition of Underrepresented Named Entities in Hybrid ASR Systems.

[BibT_eX]

[DOI]

Proceedings of the 12th International Symposium on Chinese Spoken Language Processing, 2021

E2E-Based Multi-Task Learning Approach to Joint Speech and Accent Recognition.

[BibT_eX]

[DOI]

Proceedings of the 22nd Annual Conference of the International Speech Communication Association, Interspeech 2021, Brno, Czechia, August 30, 2021

End-to-End Speech Separation Using Orthogonal Representation in Complex and Real Time-Frequency Domain.

[BibT_eX]

[DOI]

Proceedings of the 22nd Annual Conference of the International Speech Communication Association, Interspeech 2021, Brno, Czechia, August 30, 2021

Encoder-Decoder Based Pitch Tracking and Joint Model Training for Mandarin Tone Classification.

[BibT_eX]

[DOI]

Proceedings of the IEEE International Conference on Acoustics, 2021

Multilingual Approach to Joint Speech and Accent Recognition with DNN-HMM Framework.

[BibT_eX]

[DOI]

Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 2021

Enriching Under-Represented Named Entities for Improved Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 2021

2020

Using Deep Time Delay Neural Network for Slot Filling in Spoken Language Understanding.

[BibT_eX]

[DOI]

Zhen Zhang

Hao Huang

Kai Wang

Symmetry, 2020

Monaural Singing Voice and Accompaniment Separation Based on Gated Nested U-Net Architecture.

[BibT_eX]

[DOI]

Haibo Geng

Ying Hu

Hao Huang

Symmetry, 2020

Enriching Under-Represented Named-Entities To Improve Speech Recognition Performance.

[BibT_eX]

[DOI]

CoRR, 2020

The NTU-AISG Text-to-speech System for Blizzard Challenge 2020.

[BibT_eX]

[DOI]

CoRR, 2020

A multilingual approach to joint Speech and Accent Recognition with DNN-HMM framework.

[BibT_eX]

[DOI]

CoRR, 2020

A Lightweight Model Based on Separable Convolution for Speech Emotion Recognition.

[BibT_eX]

[DOI]

Proceedings of the 21st Annual Conference of the International Speech Communication Association, 2020

Monolingual Data Selection Analysis for English-Mandarin Hybrid Code-Switching Speech Recognition.

[BibT_eX]

[DOI]

Proceedings of the 21st Annual Conference of the International Speech Communication Association, 2020

2017

Mandarin tone modeling using recurrent neural networks.

[BibT_eX]

[DOI]

Hao Huang

Ying Hu

Haihua Xu

CoRR, 2017

2016

Semi-Supervised and Cross-Lingual Knowledge Transfer Learnings for DNN Hybrid Acoustic Models Under Low-Resource Conditions.

[BibT_eX]

[DOI]

Proceedings of the 17th Annual Conference of the International Speech Communication Association, 2016

Monaural Singing Voice Separation by Non-negative Matrix Partial Co-Factorization with Temporal Continuity and Sparsity Criteria.

[BibT_eX]

[DOI]

Proceedings of the Intelligent Computing Methodologies - 12th International Conference, 2016

I-vector based deep neural network acoustic model adaptation using multilingual language resource.

[BibT_eX]

[DOI]

Proceedings of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, 2016

2015

Maximum F1-Score Discriminative Training Criterion for Automatic Mispronunciation Detection.

[BibT_eX]

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2015

2009

Minimum tag error for discriminative training of conditional random fields.

[BibT_eX]

[DOI]

Inf. Sci., 2009

Hao Huang

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...