1.一种分布式数据库中并发工作负载的性能预测方法,其特征在于:通过建立多元线性回归模型,用于判断分布式数据库中查询之间的相互作用,并预测分布式数据库中不同并发程度下的查询延时L,数据库通过查询延时L进行任务的选择性分配;其主要步骤包括有:A、查询延时L的度量值选择;B、查询组合并发情况下的相互作用建立多元线性回归模型;C、实验论证多元线性回归模型的正确性和有效性。
2.根据权利要求1所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:步骤A中的查询延时L包括有网络延时和本地处理。
3.根据权利要求2所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述网络延时采用网络传输量N作为其度量值;所述本地处理采用I/O块读次数B作为其度量值。
4.根据权利要求3所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述步骤B由下列几个部分构成:B1:预测查询相互作用;B2:预测查询延时;B3:基于抽样的线性回归模型训练。
5.根据权利要求4所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述B1步骤包括有:主查询q在与副查询p1...pn并发执行的情况下的I/O块读次数B以及网络传输量N的预测;其中I/O块读次数B通过下列线性回归模型预测:
B = β 1 B q + β 2 Σ i = 1 n B p i + β 3 Σ i = 1 n ΔB q / p i + β 4 Σ i = 1 n Σ i = 1 n , j ! = i ΔB p i / q j - - - ( 1 ) ; ]]>网络传输量N,通过下列线性回归模型预测:
N = β 1 N q + β 2 Σ i = 1 n N p i + β 3 Σ i = 1 n ΔN q / p i + β 4 Σ i = 1 n Σ i = 1 n , j ! = i ΔN p i / q j - - - ( 2 ) ; ]]>所述步骤B2通过下列线性回归模型对查询延时L进行预测:L=C
q+β
1*B
q+β
2*N
q(3);所述步骤B3为:通过给出2个以上的查询,并使用分层抽样函数生成不同查询组合,并成对的运行不同的查询组合,记录下每个查询组合时的I/O块读次数B和网络传输量N来组成样本,使用样本通过最小二乘法估算出线性回归模型的系数β1、β2、β3和β4;式中,B
q为主查询q的I/O块读次数;
为所有副查询的I/O块读次数之和;
为所有副查询对主查询的直接影响值的I/O块读次数之和;
为所有副查询之间的间接影响值的I/O块读次数之和;N
q为主查询q的网络传输量;
为所有副查询的网络传输量之和;
为所有副查询对主查询的直接影响值的网络传输量之和;
为所有副查询之间的间接影响值的网络传输量之和;C
q为查询q的CPU开销时间。
6.根据权利要求1所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述步骤C为:在多元线性回归模型中运行查询Q1、Q2、Q3……Qn得到测量值,然后将测量值放入多元线性回归模型中输出,得到预测值,预测值一部分抽样分为测试数据集,另一部分分为训练数据集,并观察预测值与测量值之间的拟合情况。
7.根据权利要求3所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述网络传输量采用节点之间的网络传输包数作为衡量查询执行时的原始数据。
8.根据权利要求7所述的分布式数据库中并发工作负载的性能预测方法,其特征在于:所述网络传输包数和I/O块读次数使用SystemTap进行获取。