2025

Rewriting Pre-Training Data Boosts LLM Performance in Math and Code.

[DOI]

Kazuki Fujii

Yukito Tajima

CoRR, May, 2025

Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models.

[DOI]

CoRR, March, 2025

HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis.

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

2024

ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks.

[DOI]

IEEE ACM Trans. Audio Speech Lang. Process., 2024

HarmonicEval: Multi-modal, Multi-task, Multi-criteria Automatic Evaluation Using a Vision Language Model.

[DOI]

CoRR, 2024

Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs.

[DOI]

CoRR, 2024

Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities.

[DOI]

CoRR, 2024

Building a Large Japanese Web Corpus for Large Language Models.

[DOI]

CoRR, 2024

Likelihood-based Mitigation of Evaluation Bias in Large Language Models.

[DOI]

Proceedings of the Findings of the Association for Computational Linguistics, 2024