發布時間:2022-11-11 10:52:46
序言:寫作是分享個人見解和探索未知領域的橋梁,我們為您精選了1篇的高校四級成績數據的重采樣方法研究樣本,期待這些樣本能夠為您提供豐富的參考和啟發,請盡情閱讀。
0引言
大學英語等級考試一直以來都是高校學生參與度最高的全國性考試,其考試成績不僅反映了學生的英語學習能力,其證書也是高校畢業生求職應聘中所必備的。評估高校各專業整體英語應試水平,對于高校管理層在專業層面上提出相關英語教學改革措施極為重要。Bootstrap與Jackknife是抽樣調查中常用的重采樣方法,Jackknife是由Quenouille[1,2](1949/1956)作為減少系列相關系數估計量偏倚的一種方法提出的,后來逐漸成為復雜樣本方差估計的一種重要方法。Bootstrap是由B.Efron[3](1979)在Jackknife的基礎上提出的一種利用重抽樣方法對總體參數進行估計的統計方法。呂萍[4](2017)指出在數據分析中,若忽視層、群等抽樣設計的復雜性,直接利用調查數據按照傳統數據分析方法,容易得出錯誤的結論,尤其是涉及標準誤的估計。Bootstrap方法的優勢在于對小樣本進行評估時,可極大地降低評估樣本不足對評估結果的影響[5]。該方法也在估計中存在些許不足,主要體現在重抽樣都是在已知的樣本觀測數據中進行的,這使得自主樣本與原樣本的相似度較高,并且樣本量越小,其相似度就越高,估計結果與真實分布的差異性也會越大[6]。Jackknife方法在方差分量估計和標準誤估計上都較為準確,且其估計的準確性不隨數據類型、研究設計和方差分量的不同而產生波動,具有較強的穩健性[7]。Jackknife方法不足之處主要體現在:估計總體統計量時只利用了很少的信息,各采樣樣本之間的差異很小,每兩個Jackknife樣本中只有兩個單一的觀測值不同。本文在估計總體樣本均值的過程中,考慮到Jackknife算法與Bootstrap算法存在的不足,提出Bootstrap-Jackknife算法,得到了更接近于總體樣本均值的估計值。
1數據與估計方法
1.1數據來源與處理
本文采集廣州華商學院各專業學生在2017學年的四級成績數據,共計9860條有效數據,并對收集的數據進行對數化處理,數據對數化可以使得樣本數據更加光滑,消除異方差,同時減小數據波動范圍。
1.2Normal
將采集得到的觀測樣本x1,?,xn當做總體樣本的近似,通過觀測樣本得到各樣本統計量值以估計總體統計量,其中總體標準差的無偏估計如式,Bootstrap是一種著名的方差估計方法,其思想是通過重復抽樣來估計總體分布。具體來說就是將得到的樣本Fn(x)當做總體F(x)的近似,θ是θ的一個估計,通過從得到的樣本中重復有放回抽樣生成經驗累積分布函數F*n(x),對生成的F*n(x)樣本進行相應計算得到θ*,利用一系列θ*實現θ的置信區間評定。本文為了使全部的數據盡可能被采集,使得總體統計量的估計結果更為穩健,規定抽樣次數B=2000;⑶對一個估計量θ的標準差進行Bootstrap估計就是將Bootstrap重復實驗θ(1),?,θ(B)的樣本標準差作為估計值,Jackknife可用于總體估計量的不確定估計,旨在減少估計的偏差。其思想為“去一”抽樣,假設獲取樣本樣本量為n,在第i次抽樣中去除第i個樣本數據i=(1,2,...,n),用剩下的(n-1)個數據作為抽樣樣本計算θ(i),分別對生成的n個樣本計算相應的樣本統計量,從而實現總體統計量的置信區間估計。具體步驟如下:⑴從觀測樣本x1,?,xn中做i次Jackknife抽樣,生成第i個Jackknife樣本⑵對n個Jackknife樣本計算估計值θ(1),θ(2),?,θ(n);⑶當利用Jackknife對θ進行標準差估計時,21.5Bootstrap-Jackknife在實際應用中,Bootstrap對估計量的相關估計值具有隨機性,即每一次運用Bootstrap算法抽樣得到的估計值并不相同,而使用Jackknife對統計量進行估計時,各采樣的樣本之間的差異太小。本文考慮到Bootstrap與Jackknife的不足之處,結合兩種算法,創新性地進行相關方差估計。采用Bootstrap選取多組樣本,隨后采用Jackknife對每組樣本分別進行均值與標準差的估計,結合實際訓練數據發現該方法得到的估計值穩健度更高。本文實現Bootstrap-Jackknife的具體步驟如下:
2實例分析
分別采用Normal、Bootstrap、Jackknife、Bootstrap-Jackknife方法,對實際樣本數據進行均值估計,實際訓練樣本為該校各專業學生在2017學年的四級成績對數。估計結果對比情況如圖1所示。由圖1數據可以看出:①對于Normal、Jackknife與Bootstrap-Jackknife這三種方法計算出的均值估計量僅有細微差異,而Bootstrap得到的均值估計值與其他三種方法得到的均值估計值相差較大;②對于標準差估計,Bootstrap-Jackknife估計得到的標準差要遠遠小于其他三種方法估計的標準差,這說明在對總體均值的估計中,Bootstrap-Jackknife的估計誤差最小,即利用該方法得到的均值用來估計總體均值,其精度最高。另外Bootstrap與Jackknife的標準差估計值幾乎重合為一條折線且遠小于普通法的標準差估計值,這說明利用Bootstrap與Jackknife對估計量進行估計,其可信度要高于普通法得到的估計量值。為了更明顯的顯示四種方法估計樣本均值的差異,本文將四種方法得到的樣本數據均值估計值進行排序,具體排序結果如表1所示(僅列舉部分)。表1四種方法估計的均值排序對比英語國際商務會計學(ACCA班)...環境設計視覺傳達設計產品設計B為比較Bootstrap-Jackknife方法與其他三種方法排序結果之間的差異,本文將各專業Bootstrap-Jackknife排序結果與其他三種方法得到的排序結果做差值處理,并進行絕對值運算,依據各差值結果繪制箱線圖,如圖2所示。圖2各結合表1排序數據與圖2箱線圖可以看出:第一,Normal與Bootstrap-Jackknife在專業排序上的差異甚微,Bootstrap-Jackknife與Jackknife在專業排序上的差異最為顯著,這說明就均值估計而言,Jackknife估計的穩定性并不高;第二,就排序數據上來看,該校英語四級應試能力前三的專業為英語、國際商務和會計學(ACCA班),而英語四級應試能力較差的專業為環境設計、視覺傳達設計、產品設計這三個藝術專業。
3結論
本文基于廣州華商學院2017學年各專業學生四級成績數據,運用Normal、Bootstrap、Jackknife和Bootstrap-Jackknife四種方差估計方法分別評估該校均衡,是一種均勻的密集采樣,導致訓練困難。
4結束語
本文選用的YOLOv3和SSD框架可實現四種闊葉材高效、準確辨識,YOLOv3框架辨識準確率更高,而SSD框架用時更短??傮w而言,SSD對四種闊葉材做到了更高效自動辨識,可以在保證辨識的正確率前提下能夠更快的處理樣本,提高了闊葉材的識辨識效率。本文識別準確率沒有達到100%,綜合分析與圖像特點有關。本文只對四種木材樣本進行研究,闊葉材種類相對單一,但是每種闊葉材采集的樣本量較大,結果更具有適應性,下一步將從提高樣本的多樣性入手,增加不同闊葉材材種的訓練集,從而提高模型的抗干擾和泛化能力,使其更適應于更多闊葉材材種的辨識。
作者:夏艷 張麗娟 單位:廣州華商學院