Page 19 - 臺大管理論叢第33卷第1期
P. 19
分析模型 (Modeling):本研究採用隨機森林方法模擬所有稽核人員在不同工作下
NTU Management Review Vol. 33 No. 1 Apr. 2023
之隨機績效值。 相對於統計迴歸模型套用在所有資料空間上,隨機森林的迴歸
模式,是以樹狀結構遞迴分割樣本的方式,將複雜資料空間轉換為較單純的資料
分析模型 (Modeling):本研究採用隨機森林方法模擬所有稽核人員在不同工作下
決稽核績效數據資料分布不均、數據稀疏性、不確定性等資料處理問題。通常,相
子集合(partition)。比較以下式(1)及式(2),可見到線性迴歸強調目標函數與變數
對於統計方法透過調節方式適應某群體的分布,資料探勘採用如增量 (Boosting) 及
之隨機績效值。 相對於統計迴歸模型套用在所有資料空間上,隨機森林的迴歸
函數之間的線性關係;隨機森林迴歸模式則由多棵迴歸樹分析隨機抽樣資料子集,
減少 (Reducing) 的方式平衡必要變數相對比例,提高訓練模型穩健度,解決無法識
別少量類別變數的問題。本研究以輸入稽核數據的平衡係數(類別比例)自動平衡
模式,是以樹狀結構遞迴分割樣本的方式,將複雜資料空間轉換為較單純的資料
分析各變數在建構樹過程中分枝的貢獻,集成所有迴歸樹的預測結果,在非線性
數據比例,迴避輸入績效資料因分布與特性不同而產生的分析誤差。
子集合(partition)。比較以下式(1)及式(2),可見到線性迴歸強調目標函數與變數
與變數交互的複雜關係中,衡量各稽核研究變數對績效的解釋力。
分析模型 (Modeling):
本研究採用隨機森林方法模擬所有稽核人員在不同工作下之隨機績效值。 相對
函數之間的線性關係;隨機森林迴歸模式則由多棵迴歸樹分析隨機抽樣資料子集,
線性迴歸(式1)與迴歸樹(式2)之數學式如下:
於統計迴歸模型套用在所有資料空間上,隨機森林的迴歸模式,是以樹狀結構遞迴
分析各變數在建構樹過程中分枝的貢獻,集成所有迴歸樹的預測結果,在非線性
分割樣本的方式,將複雜資料空間轉換為較單純的資料子集合 (Partition)。比較以下
式 (1) 及式 (2),可見到線性迴歸強調目標函數與變數函數之間的線性關係;隨機森
與變數交互的複雜關係中,衡量各稽核研究變數對績效的解釋力。
,其中 :變數; :迴歸係數。 (1)
�
林迴歸模式則由多棵迴歸樹分析隨機抽樣資料子集,分析各變數在建構樹過程中分
( ) = + ∑
�
�
� �
�
���
線性迴歸(式1)與迴歸樹(式2)之數學式如下:
枝的貢獻,集成所有迴歸樹的預測結果,在非線性與變數交互的複雜關係中,衡量
各稽核研究變數對績效的解釋力。 ) ,其中 ,… 代表各類別空間的分支。 (2)
�
( ) = ∑
∙ (
�
�
�
�
���
線性迴歸(式 1)與迴歸樹(式 2)之數學式如下:
� ,其中 :變數; :迴歸係數。 (1)
( ) = + ∑
� ��� � � � �
之後,將驗證資料輸入至隨機森林模式內每一棵迴歸樹中,每棵迴歸樹皆得
( ) = ∑ � ∙ ( ) ,其中 ,… 代表各類別空間的分支。 (2)
�
�
�
���
�
到一個預測績效值,最終預測結果為所有樹的預測績效值之平均,表示如式(3)。
之後,將驗證資料輸入至隨機森林模式內每一棵迴歸樹中,每棵迴歸樹皆得到
一個預測績效值,最終預測結果為所有樹的預測績效值之平均,表示如式 (3)。
之後,將驗證資料輸入至隨機森林模式內每一棵迴歸樹中,每棵迴歸樹皆得
�����
= (∑ ),其中 代表樹總數量 。 (3)
��� �
到一個預測績效值,最終預測結果為所有樹的預測績效值之平均,表示如式(3)。
在面對極端分散的績效數據時,隨機森林即透過拔靴 (Bootstrap) 法執行分層抽
樣,再以樣本替換 (Sample Replacement) 方式處理量少 (Undersized) 的類別變數數
在面對極端分散的績效數據時,隨機森林即透過拔靴 (Bootstrap) 法執行分
據,藉此提升預測穩健度 (Breiman, 2001; More and Rana, 2017)。抽樣結束後沒被選
),其中 代表樹總數量 。 (3)
�����
= (∑
到的訓練資料稱為袋外資料 (Out-of-Bag Data; OOB Data),可用於對輸入因子進行
層抽樣,再以樣本替換 (sample replacement) 方式處理量少 (undersized) 的類別
�
���
重要性評估,找出高攸關影響之稽核變數。接著,結合預測值與實際值建立稽核人
變數數據,藉此提升預測穩健度 (Breiman, 2001; More, and Rana, 2017)。抽樣結
員工作績效矩陣後,據以建立一套績效標準評斷內稽人員在該類稽核工作的績效。
在面對極端分散的績效數據時,隨機森林即透過拔靴 (Bootstrap) 法執行分
在第二階段的分析中,我們透過二進制啟發式演算法執行稽核任務規劃數學模型的
束後沒被選到的訓練資料稱為袋外資料 (Out-of-Bag Data; OOB Data),可用於對
運算,根據稽核人員工作績效矩陣進行疊代 (Iteration) 訓練,持續將稽核績效極大
層抽樣,再以樣本替換 (sample replacement) 方式處理量少 (undersized) 的類別
輸入因子進行重要性評估,找出高攸關影響之稽核變數。接著,結合預測值與實
化,產出最佳稽核任務規劃方案,強化企業稽核運營效率。
性能評估 (Evaluation):
變數數據,藉此提升預測穩健度 (Breiman, 2001; More, and Rana, 2017)。抽樣結
際值建立稽核人員工作績效矩陣後,據以建立一套績效標準評斷內稽人員在該類
本研究使用支援向量迴歸及分類迴歸樹模型作為基準模型,以均方根誤差 (Root
束後沒被選到的訓練資料稱為袋外資料 (Out-of-Bag Data; OOB Data),可用於對
Mean Squared Error; RMSE) 及最大絕對誤差 (Maximum Absolute Error; MAE) 作為模
稽核工作的績效。在第二階段的分析中,我們透過二進制啟發式演算法執行稽核
輸入因子進行重要性評估,找出高攸關影響之稽核變數。接著,結合預測值與實
11
任務規劃數學模型的運算,根據稽核人員工作績效矩陣進行疊代 (Iteration) 訓練,
際值建立稽核人員工作績效矩陣後,據以建立一套績效標準評斷內稽人員在該類
稽核工作的績效。在第二階段的分析中,我們透過二進制啟發式演算法執行稽核
任務規劃數學模型的運算,根據稽核人員工作績效矩陣進行疊代 (Iteration) 訓練,