说话人识别

本示例介绍了如何使用 Ludwig 进行简单的说话人识别任务。我们假设有以下数据，其中标签 0 对应于未经授权语音的音频文件，标签 1 对应于经授权语音的音频文件。样本数据如下所示

audio_path	label
audiodata/audio_000001.wav	0
audiodata/audio_000002.wav	0
audiodata/audio_000003.wav	1
audiodata/audio_000004.wav	1

ludwig experiment \
--dataset speaker_verification.csv \
  --config config.yaml

使用 config.yaml

input_features:
    -
        name: audio_path
        type: audio
        preprocessing:
            audio_file_length_limit_in_s: 7.0
            audio_feature:
                type: stft
                window_length_in_s: 0.04
                window_shift_in_s: 0.02
        encoder: 
            type: cnnrnn

output_features:
    -
        name: label
        type: binary