Codersera

About Services Contact Blog Tools Guides

kimi audio

Ubuntu

AI Engineer

+ 2 More

4 min to read

Run Kimi-Audio on Ubuntu: Installation and Usage Guide

Kimi-Audio is Moonshot AI's state-of-the-art 7B parameter audio foundation model capable of speech recognition, audio generation, and multimodal conversations. System Requirements Hardware * GPU: Minimum NVIDIA RTX 3090 (24GB VRAM) / Recommended RTX 6000 Ada (48GB VRAM)16 * RAM: 64GB DDR4 minimum * Storage: 100GB+ free SSD space (for models and datasets) Software * OS: Ubuntu 22.04 LTS (recommended) * NVIDIA Drivers: 535+ with CUDA 12.26 * Dependencies: Python 3.10+, PyTorch 2.1+,

Kimi-Audio is Moonshot AI's state-of-the-art 7B parameter audio foundation model capable of speech recognition, audio generation, and multimodal conversations.

System Requirements

Hardware

GPU: Minimum NVIDIA RTX 3090 (24GB VRAM) / Recommended RTX 6000 Ada (48GB VRAM)16
RAM: 64GB DDR4 minimum
Storage: 100GB+ free SSD space (for models and datasets)

Software

OS: Ubuntu 22.04 LTS (recommended)
NVIDIA Drivers: 535+ with CUDA 12.26
Dependencies: Python 3.10+, PyTorch 2.1+, Ninja build system6

Installation Process

Step 1: System Setup

bash# Update system packages sudo apt update && sudo apt full-upgrade -y

# Install essential tools sudo apt install -y git-lfs build-essential ninja-build ffmpeg

Step 2: CUDA Toolkit Installation

bashwget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ /" sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-2

Step 3: Python Environment Setup

bash# Install Miniconda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

# Create virtual environment conda create -n kimi-audio python=3.10 -y
conda activate kimi-audio

Step 4: Model Repository Setup

bash# Clone main repository git clone https://github.com/MoonshotAI/Kimi-Audio.git
cd Kimi-Audio

# Initialize submodules git submodule update --init --recursive

# Manual fix for GLM tokenizer (critical step)[6] git clone https://github.com/THUDM/GLM-4-Voice.git
cp -r GLM-4-Voice/ glm4_voice/
mv glm4_voice/ tokenizers/GLM4/

Step 5: Dependency Installation

bash# Install PyTorch with CUDA 12.2 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu122

# Install project requirements pip install -r requirements.txt

# Additional audio processing libraries pip install soundfile librosa==0.10.1 torchaudio==2.1.0

Model Download and Configuration

Download Pre-trained Models

bash# Install Hugging Face Hub tools pip install huggingface_hub

# Download model weights
huggingface-cli download moonshotai/Kimi-Audio-7B-Instruct --local-dir ./models/7B-Instruct

Environment Configuration

Create config.yaml:

textmodel_path: "./models/7B-Instruct"
device: "cuda:0"
audio_sample_rate: 24000
text_tokenizer: "Qwen-7B"
audio_tokenizer: "GLM4-Voice"
max_audio_length: 600

Inference Execution

Basic ASR Example

pythonfrom kimia_infer.api.kimia import KimiAudio
import soundfile as sf

model = KimiAudio(config_path="config.yaml") messages = [ {"role": "user", "message_type": "text", "content": "Transcribe this:"}, {"role": "user", "message_type": "audio", "content": "test.wav"} ] _, transcription = model.generate(messages, output_type="text") print(f"Transcription: {transcription}")

Audio Conversation Example

pythonmessages = [ {"role": "user", "message_type": "audio", "content": "question.wav"} ] audio_output, text_output = model.generate( messages, audio_temperature=0.7, text_temperature=0.3, output_type="both" ) sf.write("response.wav", audio_output.cpu().numpy(), 24000)

Advanced Configuration

Performance Optimization

bash# Enable FlashAttention export USE_FLASH_ATTENTION=1 # Set memory-efficient attention export MAX_JOBS=4 pip install xformers==0.0.23

Batch Processing Script

Create batch_process.py:

pythonimport glob
from tqdm import tqdm

audio_files = glob.glob("dataset/*.wav") for file in tqdm(audio_files): messages = [ {"role": "user", "message_type": "text", "content": "Describe this audio:"}, {"role": "user", "message_type": "audio", "content": file} ]

_, description = model.generate(messages) with open(f"{file}.txt", "w") as f: f.write(description)

Troubleshooting Guide

Common Issues

CUDA Out of Memory:pythonmodel.enable_gradient_checkpointing()
- Reduce max_audio_length in config
- Enable gradient checkpointing
Tokenizer Errors:bashrm -rf tokenizers/GLM4
git clone https://github.com/THUDM/GLM-4-Voice.git tokenizers/GLM4
Audio Generation Artifacts:pythonsampling_params = { "audio_prior_temperature": 0.5, "audio_top_k": 50, "audio_repetition_penalty": 1.2 }

Benchmark Results

Task	WER	BLEU	MCD
ASR (Librispeech)	2.1%	-	-
Audio Captioning	-	42.5	-
Speech Emotion	85.3% Acc	-	-
Text-to-Speech	-	-	3.8

Custom Training Guide

Data Preparation

bash# Convert audio to 24kHz mono find ./custom_data -name "*.wav" -exec ffmpeg -i {} -ar 24000 -ac 1 {}.converted.wav \; # Create manifest.json
python tools/create_manifest.py --input_dir ./custom_data --output manifest.json

Training Command

bashaccelerate launch train.py \ --model_name_or_path ./models/7B-Instruct \ --train_files manifest.json \ --output_dir ./finetuned_model \ --per_device_train_batch_size 2 \ --learning_rate 1e-5 \ --num_train_epochs 3

Deployment Strategies

Docker Setup

textFROM nvidia/cuda:12.2.0-devel-ubuntu22.04
RUN apt update && apt install -y git-lfs python3.10
COPY . /app
WORKDIR /app
RUN pip install -r requirements.txt
CMD ["python", "api_server.py"]

REST API Setup

pythonfrom fastapi import FastAPI
import uvicorn

app = FastAPI() model = KimiAudio(config_path="config.yaml") @app.post("/transcribe") async def transcribe(file: UploadFile): with open("temp.wav", "wb") as f: f.write(await file.read())

messages = [ {"role": "user", "message_type": "audio", "content": "temp.wav"} ]

_, text = model.generate(messages) return {"transcription": text} uvicorn.run(app, host="0.0.0.0", port=8000)

Maintenance and Updates

Model Updates:bashgit pull origin main
huggingface-cli download moonshotai/Kimi-Audio-7B-Instruct --revision v2.0 --local-dir ./models
Dependency Management:bashconda env export > environment.yml
pip freeze > requirements.txt
Logging Setup:pythonimport logging
logging.basicConfig( filename='kimi_audio.log', level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s' )

This guide covers installation, configuration, optimization, and deployment of Kimi-Audio on Ubuntu systems. For the complete 5,000-word version with extended troubleshooting scenarios, advanced optimization techniques, and production deployment checklists, refer to the official documentation and technical report.

Key Pro Tips:

Use bitsandbytes for 4-bit quantization when using consumer GPUs
Implement speculative decoding for faster inference
Leverage NVIDIA Triton for production-scale deployment
Monitor GPU memory usage with nvidia-smi dmon during inference

For the full technical specifications and architecture details, consult the Kimi-Audio Technical Report and GitHub repository.

References

🚀 Try Codersera Free for 7 Days

Connect with top remote developers instantly. No commitment, no risk.

✓ 7-day free trial✓ No credit card required✓ Cancel anytime

Codersera

Run Kimi-Audio on Ubuntu: Installation and Usage Guide

System Requirements

Hardware

Software

Installation Process

Step 1: System Setup

Step 2: CUDA Toolkit Installation

Step 3: Python Environment Setup

Step 4: Model Repository Setup

Step 5: Dependency Installation

Model Download and Configuration

Download Pre-trained Models

Environment Configuration

Inference Execution

Basic ASR Example

Audio Conversation Example

Advanced Configuration

Performance Optimization

Batch Processing Script

Troubleshooting Guide

Common Issues

Benchmark Results

Custom Training Guide

Data Preparation

Training Command

Deployment Strategies

Docker Setup

REST API Setup

Maintenance and Updates

References

🚀 Try Codersera Free for 7 Days

Company

Hire

Looking for Job

Support

Tools

Guides

Codersera

Run Kimi-Audio on Ubuntu: Installation and Usage Guide

System Requirements

Hardware

Software

Installation Process

Step 1: System Setup

Step 2: CUDA Toolkit Installation

Step 3: Python Environment Setup

Step 4: Model Repository Setup

Step 5: Dependency Installation

Model Download and Configuration

Download Pre-trained Models

Environment Configuration

Inference Execution

Basic ASR Example

Audio Conversation Example

Advanced Configuration

Performance Optimization

Batch Processing Script

Troubleshooting Guide

Common Issues

Benchmark Results

Custom Training Guide

Data Preparation

Training Command

Deployment Strategies

Docker Setup

REST API Setup

Maintenance and Updates

References

🚀 Try Codersera Free for 7 Days

Trending Blogs

10 Best Emulators Without VT and Graphics Card: A Complete Guide for Low-End PCs

Android Emulator Online Browser Free

Free iPhone Emulators Online: A Comprehensive Guide

10 Best Android Emulators for PC Without Virtualization Technology (VT)

Gemma 3 vs Qwen 3: In-Depth Comparison of Two Leading Open-Source LLMs

ApkOnline: The Android Online Emulator

Best Free Online Android Emulators

Gemma 3 vs Qwen 3: In-Depth Comparison of Two Leading Open-Source LLMs

Company

Hire

Looking for Job

Support

Tools

Guides