隨著全球經(jīng)濟(jì)的快速發(fā)展,能源的需求量逐年遞增。面對(duì)不可再生能源枯竭和全球環(huán)境污染問(wèn)題,新能源以其安全性、環(huán)保性和可再生性等優(yōu)勢(shì)在世界范圍內(nèi)得到了高度重視和廣泛應(yīng)用,并呈現(xiàn)出良好的發(fā)展前景。
據(jù)統(tǒng)計(jì),在2019年第一季度,我國(guó)新增風(fēng)電裝機(jī)容量478萬(wàn)kW,累計(jì)并網(wǎng)裝機(jī)容量達(dá)到1.89億kW,全國(guó)風(fēng)電發(fā)電量1041億kW?h,同比增長(zhǎng)6.3%;新增光伏裝機(jī)容量478萬(wàn)kW,累計(jì)并網(wǎng)裝機(jī)容量達(dá)到1.797億kW,全國(guó)光伏發(fā)電量440億kW?h,同比增長(zhǎng)26%。
然而,由于新能源發(fā)電的隨機(jī)性和不確定性,新能源大規(guī)模并網(wǎng)后對(duì)電力系統(tǒng)的穩(wěn)定運(yùn)行造成了巨大的挑戰(zhàn)。提前對(duì)新能源進(jìn)行發(fā)電功率預(yù)測(cè),能夠協(xié)助調(diào)度部門(mén)調(diào)整運(yùn)行方式,進(jìn)而保證電網(wǎng)的安全和穩(wěn)定。近十年來(lái),國(guó)內(nèi)外許多學(xué)者都致力于研究新能源的功率預(yù)測(cè)方法,并取得了豐富的成果。
進(jìn)行新能源功率預(yù)測(cè)時(shí),需要對(duì)從新能源場(chǎng)站收集到的海量原始數(shù)據(jù)進(jìn)行挖掘。然而,由于電場(chǎng)運(yùn)行時(shí)機(jī)組棄風(fēng)、棄光、檢修、極端天氣情況、外界電磁干擾或設(shè)備故障等原因,導(dǎo)致原始數(shù)據(jù)中存在大量不完整的數(shù)據(jù)和異常的數(shù)據(jù)。這些不良數(shù)據(jù)嚴(yán)重影響預(yù)測(cè)模型的參數(shù)估計(jì),造成預(yù)測(cè)精度低、預(yù)測(cè)偏差大等后果。因此在功率預(yù)測(cè)前,有必要進(jìn)行有效的數(shù)據(jù)清洗處理。
目前針對(duì)新能源功率預(yù)測(cè)的數(shù)據(jù)預(yù)處理方面的綜述較少,因此有必要對(duì)新能源功率預(yù)測(cè)背景下的數(shù)據(jù)清洗方法進(jìn)行綜述和展望。本文從異常值剔除和缺失值重構(gòu)兩個(gè)方面,詳細(xì)地闡述、分析和歸納了新能源異常數(shù)據(jù)的類(lèi)別和清洗方法。最后對(duì)數(shù)據(jù)清洗在新能源功率預(yù)測(cè)中需要進(jìn)一步研究的方向進(jìn)行了展望。
精確的功率預(yù)測(cè)有利于調(diào)度部門(mén)的決策,可以提高新能源場(chǎng)站的控制性能,進(jìn)而減少棄風(fēng)、棄光所導(dǎo)致的發(fā)電損失,解決供需不平衡所帶來(lái)的系統(tǒng)穩(wěn)定性問(wèn)題,增強(qiáng)新能源場(chǎng)站的市場(chǎng)競(jìng)爭(zhēng)力。然而,精準(zhǔn)的功率預(yù)測(cè)依賴于準(zhǔn)確的測(cè)量數(shù)據(jù),因此有效的數(shù)據(jù)清洗是新能源功率預(yù)測(cè)必不可少的步驟。
新能源功率預(yù)測(cè)時(shí)所用到的數(shù)據(jù)有數(shù)值天氣預(yù)報(bào)(numerical weather prediction, NWP)數(shù)據(jù)、新能源運(yùn)行實(shí)測(cè)數(shù)據(jù)和新能源地理信息數(shù)據(jù)等。
當(dāng)下學(xué)者主要以預(yù)測(cè)變量和被預(yù)測(cè)量為數(shù)據(jù)清洗對(duì)象。其中,預(yù)測(cè)變量可以為風(fēng)速、輻照度等,被預(yù)測(cè)量一般為新能源機(jī)組輸出功率。圖1所示為采用文獻(xiàn)計(jì)量分析法得出的數(shù)據(jù)清洗方法分類(lèi)示意圖。
圖1 數(shù)據(jù)清洗方法分類(lèi)
2.1 功率曲線中異常數(shù)據(jù)的分類(lèi)
功率曲線是新能源發(fā)電的預(yù)測(cè)變量與被預(yù)測(cè)量之間的關(guān)系曲線。學(xué)者們根據(jù)異常數(shù)據(jù)的分布特征,把出現(xiàn)頻率高的異常數(shù)據(jù)類(lèi)型分成了4類(lèi)。以風(fēng)速-風(fēng)機(jī)功率散點(diǎn)圖為例,采用比恩法繪制風(fēng)電功率曲線圖,4類(lèi)異常數(shù)據(jù)的分布如圖2所示。
1)類(lèi)型1:曲線上方的堆積型異常數(shù)據(jù),通常是由于傳感器失靈、通信或測(cè)量設(shè)備故障導(dǎo)致的。
圖2 異常數(shù)據(jù)的分布
2)類(lèi)型2:曲線中部的堆積型異常數(shù)據(jù),通常是由限電或通信故障造成的。
3)類(lèi)型3:曲線周?chē)姆稚⑿彤惓?shù)據(jù),通常是由于氣象波動(dòng)、信號(hào)傳播噪聲等隨機(jī)情況造成的。
4)類(lèi)型4:曲線下方的堆積型異常數(shù)據(jù),通常是機(jī)組故障、停機(jī)檢修造成的。
2.2 異常值剔除方法
1)統(tǒng)計(jì)量分析法
采用統(tǒng)計(jì)量分析的方法,重點(diǎn)在于對(duì)變量做描述性統(tǒng)計(jì),從而查看哪些數(shù)據(jù)是不合理的。常用的方法為利用最大值和最小值判斷新能源功率和預(yù)測(cè)變量的取值是否超出范圍。若檢測(cè)到功率小于等于零的數(shù)據(jù)則進(jìn)行剔除,實(shí)現(xiàn)數(shù)據(jù)的清洗整定。統(tǒng)計(jì)量分析方法可以簡(jiǎn)單有效地完成對(duì)新能源數(shù)據(jù)的檢查,適合處理不在有效數(shù)據(jù)范圍內(nèi)的堆積型數(shù)據(jù),但是不適用于處理大量的分散型異常數(shù)據(jù)。
2)3sigma法
3sigma法又稱為拉依達(dá)準(zhǔn)則。如果數(shù)據(jù)服從正態(tài)分布,分布在(◆-3◆, ◆ +3◆)中的數(shù)據(jù)的概率為99.73%,而分布在距離平均值3◆之外的數(shù)據(jù)的概率不到0.3%,屬于極小概率事件,其中◆為標(biāo)準(zhǔn)差,◆為平均值。因此在3◆原則下,將超過(guò)3倍的標(biāo)準(zhǔn)差的數(shù)據(jù)值視為異常值。
然而,實(shí)際新能源的發(fā)電數(shù)據(jù)往往并不嚴(yán)格服從正態(tài)分布,且由于堆積型異常數(shù)據(jù)的影響,導(dǎo)致識(shí)別出的異常值個(gè)數(shù)少于實(shí)際異常值個(gè)數(shù)。因此,將這種方法用于非正態(tài)分布數(shù)據(jù)的異常值識(shí)別時(shí),其有效性有限。
3)小波奇異點(diǎn)檢測(cè)法
新能源異常數(shù)據(jù)可以看成是功率曲線中的奇異點(diǎn)。使用小波變換可以處理非平穩(wěn)信號(hào),并從非平穩(wěn)信號(hào)中精確辨識(shí)出奇異點(diǎn)的位置。通常來(lái)說(shuō),對(duì)奇異點(diǎn)位置的辨識(shí)依賴于小波變換系數(shù)正負(fù)模極大值線在低尺度上的交點(diǎn)。正負(fù)模極大值線可以延伸至尺度接近零處,保證兩曲線相交,從而找到奇異點(diǎn)的位置,之后再對(duì)其進(jìn)行修正。
但是由于新能源發(fā)電功率有波動(dòng)性,即使是正常的數(shù)據(jù)在小波變換之后也可能會(huì)存在奇異點(diǎn),所以判斷出奇異點(diǎn)后還應(yīng)區(qū)分正常的奇異點(diǎn)和錯(cuò)誤奇異點(diǎn)。此外,在實(shí)際應(yīng)用中,選取合適的小波函數(shù)是使正負(fù)模極大值線能相交于一點(diǎn)的關(guān)鍵,否則將無(wú)法識(shí)別出奇異點(diǎn)的位置。
4)四分位算法
5)支持向量機(jī)回歸算法
支持向量機(jī)回歸算法(support vector machine regression, SVMR)的核心是用函數(shù)擬合數(shù)據(jù),在數(shù)據(jù)中含有大量異常值的情況下,曲線在回歸估計(jì)過(guò)程中會(huì)因趨近異常數(shù)據(jù)而發(fā)生畸變,從而造成回歸曲線的擬合效果不理想。
在SVMR算法的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)中加入不敏感損失函數(shù),可以控制異常數(shù)據(jù)對(duì)回歸模型的影響,從整體上考慮回歸曲線的平滑性。這使異常數(shù)據(jù)與回歸值之間的殘差十分顯著,從而更容易將異常數(shù)據(jù)進(jìn)行分離。
6)K最近鄰聚類(lèi)算法
K最近鄰(K-nearest neighbor, KNN)算法在分類(lèi)上根據(jù)最鄰近的一個(gè)或幾個(gè)數(shù)據(jù)的類(lèi)別決定該數(shù)據(jù)的類(lèi)別。借助距離參數(shù)表征數(shù)據(jù)的偏離程度,可以對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)并剔除。常用的距離有歐氏距離和馬氏距離。當(dāng)某數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)的距離都大于一個(gè)閾值時(shí),就被判定為異常數(shù)據(jù)。該方法簡(jiǎn)單易懂,但是在訓(xùn)練歷史數(shù)據(jù)構(gòu)建數(shù)學(xué)模型時(shí)學(xué)習(xí)速度較慢,泛化能力較差,且需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,否則訓(xùn)練誤差會(huì)較大。
7)組內(nèi)最優(yōu)方差法
在使用組內(nèi)最優(yōu)方差法(optimal interclass variance, OIV)時(shí),首先要設(shè)置一個(gè)初始方差閾值S,然后將預(yù)測(cè)變量劃分成n個(gè)區(qū)間,區(qū)間劃分的間隔通常取0.5個(gè)單位的預(yù)測(cè)變量,例如將風(fēng)速區(qū)間間隔定為0.5m/s。再根據(jù)初始閾值S將每一個(gè)區(qū)間里的異常數(shù)據(jù)和正常數(shù)據(jù)進(jìn)行區(qū)分,最后對(duì)所有區(qū)間的數(shù)據(jù)進(jìn)行歸納,從而找出所有的異常數(shù)據(jù)。
采用OIV進(jìn)行新能源功率曲線分析時(shí),可以快速準(zhǔn)確地清洗數(shù)據(jù)。與其他學(xué)習(xí)算法相比,此方法不需要?dú)v史數(shù)據(jù)集進(jìn)行訓(xùn)練便可以識(shí)別出發(fā)電性能偏低的數(shù)據(jù)簇,且處理速度快,操作過(guò)程簡(jiǎn)便,通用性強(qiáng)。但是此方法需要人工反復(fù)試探才能確定閾值。
8)基于密度的離群點(diǎn)檢測(cè)算法
離群點(diǎn)檢測(cè)算法(local outlier factor, LOF)通過(guò)聚類(lèi)的方法識(shí)別離群點(diǎn)。由聚類(lèi)生成的一組數(shù)據(jù)對(duì)象集合稱為簇,同一簇中數(shù)據(jù)對(duì)象周?chē)拿芏扰c其鄰域周?chē)拿芏认嗨疲湓诖丶现獾臄?shù)值則稱為離群點(diǎn)。所以離群點(diǎn)周?chē)拿芏扰c其鄰域周?chē)拿芏让黠@不同,將離群點(diǎn)刪除就能實(shí)現(xiàn)異常數(shù)據(jù)的剔除。
LOF算法可以有效實(shí)現(xiàn)對(duì)分散性數(shù)據(jù)的識(shí)別,但是識(shí)別密度較高的堆積型數(shù)據(jù)能力較差,而且LOF的閾值設(shè)置有一定的難度,要根據(jù)經(jīng)驗(yàn)或者多次嘗試才能達(dá)到理想效果。
9)組合模型清洗法
僅僅使用單個(gè)數(shù)學(xué)方法或者人工智能算法進(jìn)行異常數(shù)據(jù)清洗存在著一定的局限性。為了彌補(bǔ)單個(gè)算法的不足,有學(xué)者提出一種四分位法和聚類(lèi)分析的組合模型用于識(shí)別異常數(shù)據(jù)。組合模型在使用時(shí),四分位法用于剔除分散型異常數(shù)據(jù),而聚類(lèi)法用于剔除堆積型異常數(shù)據(jù)。有學(xué)者提出使用四分位法與變點(diǎn)分組法的組合模型對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別并清洗。
以上的方法都可以改進(jìn)使用單一四分位法時(shí)識(shí)別堆積型異常數(shù)據(jù)較差這一局限。
當(dāng)只是針對(duì)數(shù)據(jù)本身進(jìn)行清洗時(shí),雖然具有普遍性,但是沒(méi)有考慮新能源場(chǎng)站的物理特性,導(dǎo)致異常數(shù)據(jù)的識(shí)別效果變差甚至?xí)`刪正常數(shù)據(jù)。為了解決這個(gè)問(wèn)題,在清洗數(shù)據(jù)時(shí)可以將新能源出力之間的相關(guān)性和自身出力特性考慮進(jìn)去,識(shí)別效果會(huì)明顯提高。
2.3 仿真測(cè)試
以福建某風(fēng)電場(chǎng)為例,該風(fēng)電場(chǎng)有24臺(tái)額定功率為2MW的風(fēng)電機(jī)組。風(fēng)電機(jī)組的切入風(fēng)速為3m/s,額定風(fēng)速為15m/s,切出風(fēng)速為25m/s。風(fēng)電場(chǎng)風(fēng)速采集時(shí)間間隔為10min,采集時(shí)間為2015年2月1日00:00至2015年7月31日24:00。風(fēng)速-功率散點(diǎn)圖如圖3所示。其中原始數(shù)據(jù)中有12%的異常數(shù)據(jù)。
圖3 風(fēng)速-功率散點(diǎn)圖
分別采用數(shù)學(xué)方法中的四分位法、人工智能算法中的SVMR法和四分位-SVMR的組合算法對(duì)異常值進(jìn)行剔除。結(jié)果顯示四分位法只剔除了6.65%的異常值,SVMR剔除了7.99%的異常值,而組合模型法的剔除率達(dá)到了10.2%。由此證明使用單一的清洗方法有一定的局限性,組合模型法可以將算法的優(yōu)勢(shì)進(jìn)行互補(bǔ),進(jìn)而實(shí)現(xiàn)較好的清洗效果。
在異常數(shù)據(jù)占比較高的情況下,數(shù)據(jù)清洗過(guò)程中的異常值剔除量將隨之變高,進(jìn)而破壞了原始數(shù)據(jù)的完整性和充裕度。這不僅會(huì)影響新能源功率的預(yù)測(cè)模型,而且不利于數(shù)據(jù)再利用。通過(guò)對(duì)被剔除數(shù)據(jù)進(jìn)行重構(gòu),能夠保持?jǐn)?shù)據(jù)的完整性和有效性。
采用文獻(xiàn)計(jì)量分析方法得出主流的缺失值重構(gòu)方法有:①基于統(tǒng)計(jì)學(xué)的重構(gòu)方法;②基于機(jī)器學(xué)習(xí)的重構(gòu)方法;③基于物理特性的重構(gòu)方法。
3.1 基于統(tǒng)計(jì)學(xué)的重構(gòu)方法
基于統(tǒng)計(jì)學(xué)的重構(gòu)方法有均值重構(gòu)法、多項(xiàng)式擬合法、級(jí)比生成法、三次樣條插值法和遞推式非鄰均值補(bǔ)全法等。其中最常用的為三次樣條插值法。
三次樣條插值函數(shù)一般會(huì)使用三彎矩插值法去構(gòu)造。當(dāng)連續(xù)的異常數(shù)據(jù)點(diǎn)少于等于5時(shí)可以直接利用三次樣條插值函數(shù)對(duì)數(shù)據(jù)進(jìn)行重構(gòu);當(dāng)大于5時(shí),則需用改進(jìn)的多點(diǎn)三次樣條采樣法進(jìn)行重構(gòu)?;诮y(tǒng)計(jì)學(xué)的重構(gòu)方法較為簡(jiǎn)便快速,但是重構(gòu)的數(shù)據(jù)偏差較大,且忽略了新能源數(shù)據(jù)的時(shí)序信息。
3.2 基于機(jī)器學(xué)習(xí)的重構(gòu)方法
常用的基于機(jī)器學(xué)習(xí)的重構(gòu)方法有KNN、回歸算法、期望最大化算法(expectation-maximization, EM)等。其中KNN根據(jù)歐式距離用于確定缺失數(shù)據(jù)樣本周?chē)罱腒個(gè)樣本,將K個(gè)值加權(quán)平均用于估計(jì)缺失值;回歸算法根據(jù)數(shù)據(jù)集建立回歸方程,將缺失值的已知屬性帶入方程去估計(jì)缺失值;EM假設(shè)模型對(duì)于完整樣本是正確的,通過(guò)觀察數(shù)據(jù)的邊際分布進(jìn)而對(duì)缺失值進(jìn)行極大似然估計(jì)。
這些算法都是根據(jù)已有數(shù)據(jù)建立相應(yīng)模型,然后使用模型來(lái)估計(jì)該樣本的缺失數(shù)據(jù),應(yīng)用較為普遍但卻未考慮相鄰數(shù)據(jù)間的時(shí)序信息。
自回歸滑動(dòng)平均模型(auto regressive moving average, ARMA)彌補(bǔ)了這個(gè)缺點(diǎn),此算法將預(yù)測(cè)指標(biāo)隨時(shí)間推移形成的數(shù)據(jù)序列看作是一個(gè)隨機(jī)序列,這組隨機(jī)變量所具有的依存關(guān)系體現(xiàn)著原始數(shù)據(jù)在時(shí)間上的延續(xù)性,從而用于缺失數(shù)據(jù)的插補(bǔ)。
3.3 基于物理特性的重構(gòu)方法
目前新能源場(chǎng)站都是大規(guī)模集中開(kāi)發(fā),每個(gè)電場(chǎng)附近都會(huì)有許多相鄰的風(fēng)電場(chǎng),因此新能源的出力會(huì)有一定的相關(guān)性。有學(xué)者利用相鄰電場(chǎng)的功率比值時(shí)間序列有一定程度的模式性重構(gòu)數(shù)據(jù),有學(xué)者利用出力的延時(shí)相關(guān)性重構(gòu)數(shù)據(jù),這兩種方法都充分利用了新能源出力的物理特性,實(shí)現(xiàn)通過(guò)已知的新能源場(chǎng)站輸出功率求得待重構(gòu)電場(chǎng)的輸出功率,能有效改善數(shù)據(jù)重構(gòu)效果。
由于目前有關(guān)風(fēng)電數(shù)據(jù)重構(gòu)的研究較少,且缺失數(shù)據(jù)重構(gòu)的評(píng)定方法沒(méi)有一個(gè)量化的標(biāo)準(zhǔn),本次研究將不對(duì)缺失值的重構(gòu)方法進(jìn)行仿真分析。用于判斷重構(gòu)數(shù)據(jù)的成功率和準(zhǔn)確率的評(píng)定技術(shù)有待進(jìn)一步研究。
新能源發(fā)電機(jī)組中的異常數(shù)據(jù)會(huì)導(dǎo)致功率預(yù)測(cè)的精度降低,有效的數(shù)據(jù)清洗可以提高數(shù)據(jù)的質(zhì)量,提升新能源功率預(yù)測(cè)結(jié)果的準(zhǔn)確性。當(dāng)前學(xué)者在新能源功率預(yù)測(cè)數(shù)據(jù)清洗領(lǐng)域的研究雖已展開(kāi)但不完善,因此對(duì)數(shù)據(jù)清洗的研究需要更加深入。
以下幾點(diǎn)問(wèn)題需要進(jìn)一步研究:
1)在結(jié)合幾種清洗方法同時(shí)處理數(shù)據(jù)時(shí),方法的優(yōu)勢(shì)可能會(huì)互補(bǔ),也可能抵消。即使有時(shí)互補(bǔ)的方法在使用順序不同時(shí)可能帶來(lái)不同的清洗效果。未來(lái)可以探究多種方法的組合方式及使用順序?qū)?shù)據(jù)清洗結(jié)果的影響。
2)當(dāng)前學(xué)者們?cè)跀?shù)據(jù)清洗領(lǐng)域的研究主要分為異常值剔除和缺失值重構(gòu)兩部分,范圍較窄。未來(lái)考慮將數(shù)據(jù)清洗概念進(jìn)行擴(kuò)展,比如當(dāng)采樣數(shù)據(jù)未保持時(shí)間同步時(shí),考慮將這些數(shù)據(jù)進(jìn)行時(shí)刻糾偏,而不是直接剔除再重構(gòu),其中時(shí)刻糾偏也應(yīng)屬于數(shù)據(jù)清洗的范疇。
3)現(xiàn)有文獻(xiàn)中對(duì)新能源的數(shù)據(jù)清洗和接下來(lái)功率預(yù)測(cè)的建模都進(jìn)行了分離,未來(lái)可以考慮融合這兩個(gè)環(huán)節(jié),形成清洗-建模-清洗的閉環(huán)結(jié)構(gòu)。
4)功率預(yù)測(cè)前除了要對(duì)新能源的運(yùn)行數(shù)據(jù)進(jìn)行清洗以外,還需要考慮氣象數(shù)據(jù)、地理因素?cái)?shù)據(jù)的清洗,這些數(shù)據(jù)也會(huì)因?yàn)榉N種原因變得異常或缺失。因此未來(lái)還需加強(qiáng)氣象數(shù)據(jù)、地理因素?cái)?shù)據(jù)的清洗。
5)除了經(jīng)典的數(shù)據(jù)分類(lèi)外,還可以針對(duì)諸如氣象、地理因素等異常數(shù)據(jù)所產(chǎn)生的出力偏差傾向進(jìn)行挖掘、歸納、推理和建模,從而達(dá)到根據(jù)出力偏差反推異常數(shù)據(jù)類(lèi)型的目的。未來(lái)可以探索這種偏差識(shí)別和異常數(shù)據(jù)挖掘技術(shù)。
6)經(jīng)過(guò)多年的積累,我國(guó)已經(jīng)有自主研發(fā)的功率預(yù)測(cè)系統(tǒng),比如FR3000F、WPPS和SPWF-3000等。開(kāi)發(fā)針對(duì)新能源功率預(yù)測(cè)的數(shù)據(jù)清洗系統(tǒng)將成為未來(lái)的發(fā)展目標(biāo),這樣的系統(tǒng)可以高效且強(qiáng)通用性地對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,為功率預(yù)測(cè)提供堅(jiān)強(qiáng)的數(shù)據(jù)支撐。
本文結(jié)合國(guó)內(nèi)外最新文獻(xiàn),從異常值剔除和缺失值重構(gòu)兩個(gè)角度,總結(jié)了當(dāng)前主流數(shù)據(jù)清洗方法的優(yōu)缺點(diǎn)。最后針對(duì)數(shù)據(jù)清洗在新能源功率預(yù)測(cè)中存在的不足,闡述了數(shù)據(jù)清洗研究的關(guān)鍵性問(wèn)題,并對(duì)未來(lái)的研究方向進(jìn)行了展望。