Explore outstanding Cloud & Infrastructure jobs.
See now

Senior AI Research Engineer – Speech AI

VinSmart Future
Tầng 20A, Vincom Center Đồng Khởi, 72 Lê Thánh Tôn, phường Bến Nghé, Ho Chi Minh
Tòa nhà TechnoPark, Oceanpark, Đa Tốn, Ha Noi
At office
Posted 9 hours ago
Skills:
Job Expertise:
Job Domain:
AI Software & Services

Top 3 reasons to join us

  • Competitive Salary & Benefits
  • Training course and certificates
  • The preferences when using the services of the Vin

Job description

About the Role

We are seeking a Senior AI Research Engineer to lead the development of state-of-the-art Vietnamese Speech AI technologies, including Automatic Speech Recognition (ASR), Text-to-Speech (TTS), and Speech-to-Speech Conversational AI.

The ideal candidate has strong expertise in foundation model adaptation, pretraining, supervised fine-tuning (SFT), reinforcement learning, and knowledge distillation. You will be responsible for building SOTA Vietnamese speech models with high accuracy, naturalness, low latency

Responsibilities

Speech Foundation Models

  • Research, develop, and optimize state-of-the-art Vietnamese ASR and TTS models.
  • Adapt and improve large speech foundation models for Vietnamese language and accents.
  • Work with open-source and commercial speech models, including:
    • Qwen3-ASR
    • Qwen3-TTS
    • Whisper
    • CosyVoice
    • Orpheus
    • Sesame
    • Fish Speech
    • XTTS
    • Other emerging speech foundation models

Model Training & Fine-Tuning

  • Design and implement scalable pipelines for:
    • Self-supervised pretraining
    • Continued pretraining
    • Supervised Fine-Tuning (SFT)
    • Instruction tuning
    • Domain adaptation
  • Build and curate large-scale Vietnamese speech datasets.
  • Develop data cleaning, alignment, and augmentation pipelines for speech training.

Reinforcement Learning & Alignment

  • Research and implement advanced optimization techniques:
    • Reinforcement Learning from Human Feedback (RLHF)
    • Direct Preference Optimization (DPO)
    • GRPO / PPO-based optimization
    • Preference learning for speech quality improvement
  • Improve:
    • ASR accuracy
    • TTS naturalness
    • Speaker similarity
    • Pronunciation quality
    • Dialogue experience

Knowledge Distillation & Model Compression

  • Distill large speech foundation models into efficient Vietnamese ASR/TTS models.
  • Develop:
    • Teacher-student training frameworks
    • Representation distillation
    • Logit distillation
    • Feature matching approaches
  • Optimize models using:
    • Quantization
    • Pruning
    • Distillation
    • Low-rank adaptation techniques

Conversational Speech AI

  • Build speech pipelines for:
    • Voice assistants
    • Conversational AI
    • In-car voice systems
    • Real-time voice interaction
  • Improve:
    • End-to-end latency
    • Turn-taking
    • Barge-in handling
    • Streaming speech generation

Evaluation & Research

  • Design evaluation frameworks for:
    • WER (Word Error Rate)
    • CER (Character Error Rate)
    • MOS (Mean Opinion Score)
    • Speaker similarity
    • Latency
    • Robustness
  • Conduct research experiments and benchmark against state-of-the-art systems.
  • Stay up-to-date with the latest speech AI research and contribute novel ideas to the team.

Your skills and experience

Education

  • Bachelor's, Master's, or PhD in:
    • Computer Science
    • Artificial Intelligence
    • Machine Learning
    • Speech Processing
    • Computational Linguistics
    • Related fields

Technical Skills

  • Strong understanding of:
    • Deep Learning
    • Speech Processing
    • NLP
    • Generative AI
    • Transformer architectures
  • Experience training and fine-tuning large speech models.
  • Experience with:
    • Self-supervised learning
    • Foundation models
    • Multimodal learning
    • Sequence-to-sequence architectures

Speech AI Expertise

  • Hands-on experience in at least one of:
    • Automatic Speech Recognition (ASR)
    • Text-to-Speech (TTS)
    • Voice Conversion
    • Speech Translation
    • Speech-to-Speech systems
  • Strong understanding of:
    • Acoustic modeling
    • Language modeling
    • Vocoders
    • Speaker embeddings
    • Alignment methods

Reinforcement Learning & Distillation

  • Practical experience with:
    • RLHF
    • DPO
    • PPO / GRPO
    • Preference learning
  • Experience with:
    • Knowledge distillation
    • Model compression
    • Efficient speech model deployment

 

Preferred Qualifications

  • Experience building Vietnamese ASR systems with low Word Error Rate across multiple regional accents.
  • Experience building natural Vietnamese TTS systems with expressive and emotional speech generation.
  • Familiarity with:
    • Streaming ASR
    • Streaming TTS
    • Real-time voice assistants
    • Speech-to-Speech AI
  • Publications in speech AI conferences such as:
    • ICASSP
    • Interspeech
    • NeurIPS
    • ICML
    • ICLR
    • ACL
    • EMNLP

Why you'll love working here

QUYỀN LỢI CHUNG KHI GIA NHẬP VINSMART FUTURE
• Thời gian làm việc, chấm công linh hoạt (Work from home vào thứ 7 làm việc).
• Mức thu nhập, các gói thưởng hấp dẫn, cạnh tranh mạnh mẽ so với thị trường.
• Được hưởng chế độ ưu đãi khi sử dụng các dịch vụ thuộc hệ sinh thái Tập đoàn: Ưu đãi học phí (Vinschool), khám chữa bệnh (Vinmec), nghỉ dưỡng (Vinpearl), mua xe (VinFast), thuê hoặc/và mua nhà (Vinhomes) … theo chế độ của Tập đoàn.
• Cơ hội tiếp cận dự án chiến lược công nghệ trọng điểm, quy mô lớn.
• Cơ hội làm việc trong môi trường công nghệ chuyên nghiệp, quy tụ các nhà khoa học, chuyên gia, kỹ sư đến từ các Công ty công nghệ hàng đầu Việt Nam và thế giới.
• Cung cấp các nguồn học tập miễn phí trên các nền tảng Udemy, Coursera, O’Reilly; hội thảo nội bộ; tài trợ chứng chỉ và chương trình cố vấn đặc biệt từ Ban lãnh đạo Tập đoàn và Công ty.
• Cơ hội tham gia các Câu lạc bộ công nghệ của Tập đoàn, các sự kiện công nghệ nội bộ để học hỏi, phát triển những dự án, ý tưởng cá nhân vào thực tế.
• Cung cấp các chương trình đào tạo để trở thành "Giảng viên nội bộ" tham gia chia sẻ chuyên môn với những quyền lợi đặc biệt.
• Được hưởng đầy đủ các chế độ bảo hiểm theo quy định của Luật Lao động (BHXH, BHYT, BHTN) và được Công ty mua Bảo hiểm sức khỏe cá nhân theo cấp bậc vị trí, khám sức khỏe định kỳ tại Bệnh viện và Trung tâm khám sức khỏe uy tín trên toàn quốc.
• 12 ngày nghỉ phép năm, nghỉ các ngày lễ, Tết theo quy định của pháp luật.
• Phụ cấp ăn trưa.
• Tham gia các hoạt động nội bộ, hoạt động teambuilding, sự kiện hàng năm của Công ty.

Vin Smart Future

Company type
IT Service and IT Consulting
Company industry
IT Services and IT Consulting
Company size
1000+ employees
Country
Vietnam
Working days
Monday - Saturday
Overtime policy
Extra salary for OT

More jobs for you

Get similar jobs by email Subscribe