章节大纲

  • 预测模型:模型训练与预测


    简介

    预测模型旨在为股票生成预测分数。用户可以通过 qrun 在自动化工作流中使用预测模型,请参阅工作流:工作流管理

    由于 Qlib 中的组件采用松散耦合的设计,预测模型也可以作为一个独立的模块使用。


    基类与接口

    Qlib 提供了一个基类 qlib.model.base.Model,所有模型都应继承自该类。

    该基类提供了以下接口:

    class qlib.model.base.Model

    可学习的模型

    fit(dataset: Dataset, reweighter: Reweighter)

    从基础模型中学习模型。

    注意

    学习到的模型的属性名称不应以 _ 开头。这样模型就可以被转储到磁盘。

    以下代码示例展示了如何从数据集中检索 x_trainy_trainw_train

    Python
    # get features and labels
    df_train, df_valid = dataset.prepare(
        ["train", "valid"], col_set=["feature", "label"], data_key=DataHandlerLP.DK_L)
    x_train, y_train = df_train["feature"], df_train["label"]
    x_valid, y_valid = df_valid["feature"], df_valid["label"]
    
    # get weights
    try:
        wdf_train, wdf_valid = dataset.prepare(["train", "valid"], col_set=["weight"],
                                               data_key=DataHandlerLP.DK_L)
        w_train, w_valid = wdf_train["weight"], wdf_valid["weight"]
    except KeyError as e:
        w_train = pd.DataFrame(np.ones_like(y_train.values), index=y_train.index)
        w_valid = pd.DataFrame(np.ones_like(y_valid.values), index=y_valid.index)
    

    参数

    • dataset (Dataset) – 数据集将生成用于模型训练的处理过的数据。

    abstract predict(dataset: Dataset, segment: str | slice = 'test') -> object

    给定数据集进行预测。

    参数:

    • dataset (Dataset) – 数据集将生成用于模型训练的处理过的数据集。

    • segment (Text or slice) – 数据集将使用此分段来准备数据。(默认为 test)

      返回类型:

      具有特定类型(例如 pandas.Series)的预测结果。

    Qlib 还提供了一个基类 qlib.model.base.ModelFT,其中包含了微调模型的方法。

    对于 finetune 等其他接口,请参阅模型 API


    示例

    Qlib 的模型库 (Model Zoo) 包含 LightGBMMLPLSTM 等模型。这些模型被视为预测模型的基线。以下步骤展示了如何将 LightGBM 作为独立模块运行。

    1. 首先,使用 qlib.init 初始化 Qlib,请参阅初始化

    2. 运行以下代码以获取预测分数 pred_score

    Python
    from qlib.contrib.model.gbdt import LGBModel
    from qlib.contrib.data.handler import Alpha158
    from qlib.utils import init_instance_by_config, flatten_dict
    from qlib.workflow import R
    from qlib.workflow.record_temp import SignalRecord, PortAnaRecord
    
    market = "csi300"
    benchmark = "SH000300"
    data_handler_config = {
        "start_time": "2008-01-01",
        "end_time": "2020-08-01",
        "fit_start_time": "2008-01-01",
        "fit_end_time": "2014-12-31",
        "instruments": market,
    }
    task = {
        "model": {
            "class": "LGBModel",
            "module_path": "qlib.contrib.model.gbdt",
            "kwargs": {
                "loss": "mse",
                "colsample_bytree": 0.8879,
                "learning_rate": 0.0421,
                "subsample": 0.8789,
                "lambda_l1": 205.6999,
                "lambda_l2": 580.9768,
                "max_depth": 8,
                "num_leaves": 210,
                "num_threads": 20,
            },
        },
        "dataset": {
            "class": "DatasetH",
            "module_path": "qlib.data.dataset",
            "kwargs": {
                "handler": {
                    "class": "Alpha158",
                    "module_path": "qlib.contrib.data.handler",
                    "kwargs": data_handler_config,
                },
                "segments": {
                    "train": ("2008-01-01", "2014-12-31"),
                    "valid": ("2015-01-01", "2016-12-31"),
                    "test": ("2017-01-01", "2020-08-01"),
                },
            },
        },
    }
    
    # 模型初始化
    model = init_instance_by_config(task["model"])
    dataset = init_instance_by_config(task["dataset"])
    
    # 开始实验
    with R.start(experiment_name="workflow"):
        # 训练
        R.log_params(**flatten_dict(task))
        model.fit(dataset)
    
        # 预测
        recorder = R.get_recorder()
        sr = SignalRecord(model, dataset, recorder)
        sr.generate()
    

    注意

    Alpha158 是 Qlib 提供的数据处理器,请参阅数据处理器。SignalRecord 是 Qlib 中的记录模板,请参阅工作流。

    此外,上述示例已在 examples/train_backtest_analyze.ipynb 中给出。从技术上讲,模型预测的含义取决于用户设计的标签设置。默认情况下,分数的含义通常是预测模型对成分股的评级。分数越高,成分股的利润潜力越大。


    自定义模型

    Qlib 支持自定义模型。如果用户有兴趣自定义自己的模型并将其集成到 Qlib 中,请参阅自定义模型集成


    API

    请参阅模型 API