文本分类

预训练的 LLM 可用作通用文本特征的文本编码器，并可包含在 ECD 模型中用于二元或多类文本分类任务。

LLM 编码器与 LLM 模型类型共享大部分功能，包括基础模型选择、适配器、量化和 RoPE 缩放等初始化参数。与 LLM 模型类型不同，LLM 编码器是 ECD 架构的一部分，不直接生成文本。相反，输入文本由 LLM 处理，最终的隐藏状态向前传递给组合器和解码器，从而可以直接用于预测任务。

LLM 编码器配置示例¶

agnews 数据集包含新闻文章标题和描述的示例，任务是将这些示例分类到四个部分类别中的一个。使用 LLM 对文章标题进行分类的配置可能如下所示

model_type: ecd
input_features:
  - name: title
    type: text
    encoder:
      type: llm
      adapter:
        type: lora
      base_model: meta-llama/Llama-2-7b-hf
      quantization:
        bits: 4
    column: title
output_features:
  - name: class
    type: category
    column: class
trainer:
  epochs: 3
  optimizer:
    type: paged_adam

这将对 llama-2-7b 模型进行 4 位量化的 LoRA 适配器微调，并同时训练一个分类头。微调/训练后，适配器权重、组合器参数和解码器参数将保存在结果中。

要了解更多关于配置 LLM 用于文本分类的信息，请参阅LLM 编码器参考。