跳到内容

支持的格式

文件格式

Ludwig 能够读取 14 种文件格式的 UTF-8 编码数据。支持的格式有

  • 逗号分隔值 (csv)
  • Excel 工作簿 (excel)
  • Feather (feather)
  • 固定宽度格式 (fwf)
  • 分层数据格式 5 (hdf5)
  • 超文本标记语言 (html) 注意:仅限于文件中的单个表格。
  • JavaScript 对象表示法 (jsonjsonl)
  • Parquet (parquet)
  • Pickle 序列化的 Pandas DataFrame (pickle)
  • XPORT 或 SAS7BDAT 格式的 SAS 数据集 (sas)
  • SPSS 文件 (spss)
  • Stata 文件 (stata)
  • 制表符分隔值 (tsv)

Ludwig 在内部使用 Pandas 和 Dask 来读取 UTF-8 编码的数据集文件,这使得它支持 CSV、Excel、Feather、fwf、HDF5、HTML(包含 <table>)、JSON、JSONL、Parquet、pickle(pickle 序列化的 Pandas DataFrame)、SAS、SPSS、Stata 和 TSV 格式。Ludwig 会尝试通过文件扩展名自动识别格式。

如果提供了 *SV 文件,Ludwig 会尝试从数据中识别分隔符(通常是 ,)。默认的转义字符是 \。例如,如果 , 是列分隔符,并且您的某个数据列中包含 ,,Pandas 将无法正确加载数据。为了处理这种情况,我们期望列中的值使用反斜杠进行转义(将数据中的 , 替换为 \,)。

Hugging Face 数据集

Ludwig 现在还支持使用以下语法直接导入 Hugging Face 数据集(dataset_subset 在 Hugging Face 数据集中并非总是存在,因此必要时请省略)。

"hf://{dataset_name}--{dataset_subset}"

例如:train_stats, _, _ = ludwig_model.train(dataset="hf://mbpp") train_stats, _, _ = ludwig_model.train(dataset="hf://Open-Orca/OpenOrca") train_stats, _, _ = ludwig_model.train(dataset="hf://gsm8k--main")

请注意,“subset” 与 “split” 不同。指定数据集时,请确保包含的是 subset 名称而不是 split 名称。

Alt text