

臺大管理論叢
第
27
卷第
2S
期
19
整的產品特徵描述產出的產品特徵識別規則數量會較多,所以可以有較高的召回率。
不過,較高的召回率通常會伴隨著準確率
(Precision)
下降,在我們的評估結果中確實
也可以發現此現象。以一個關鍵字和三個關鍵字的
Macro-average
指標為例,三個關
鍵字的
Macro-recall
值為
86.4%
,比一個關鍵字的
72.4%
高了
14.0%
,但三個關鍵字
的
Macro-precision
值只有
74.8%
,比一個關鍵字的
77.3%
低了
2.5%
。但從整體的
Macro-F-measure
指標來看,三個關鍵字相較於一個關鍵字還是提升的,分別為
80.2%
與
74.8%
,相差
5.4%
。
表
8
產品特徵描述完整性對
R-OSI
技術的影響(小文集)
門檻值
#
Precision
Recall
F-measure
一個關鍵字
Macro
0.005; 0.15
77.3%
72.4%
74.8%
Micro
0.005; 0.15
75.4%
61.9%
68.0%
二個關鍵字
Macro
0.007; 0.15
74.8%
86.3%
80.2%
Micro
0.009; 0.2
75.9%
69.5%
72.5%
三個關鍵字
Macro
0.007; 0.15
74.8%
86.4%
80.2%
Micro
0.005; 0.25
73.1%
72.5%
72.6%
#
:依序為最小支持度
(Min-supp)
門檻值與最小信心度
(Min-conf)
門檻值。
*
:粗體字代表不同特徵描述完整性下較佳的表現。
伍、結論
本研究專注在意見探勘中意見句子識別的工作,為改善傳統監督式學習法在準備
訓練資料上所需投入的大量人力與時間,本研究提出僅需要使用者提供少量的關鍵
字,再輔以網路抓取來未經人工標註的使用者產生資料,便能夠進行半監督式的學習,
產生與監督式學習相似甚至更佳的探勘結果。具體而言,本研究採用類別關聯規則演
算法來進行半監督式學習,提出規則式意見句子識別技術
(R-OSI)
。根據實驗評估結
果,本研究的
R-OSI
在只使用一個關鍵字來描述產品特徵的前提下,與先前研究的監
督式方法相比,
Macro-F-measure
高出
2.5%
,而
Micro-F-measure
則低了
1.0%
。如果
將關鍵字數量從一個增加到三個,可以發現
R-OSI
的效果在
Macro-F-measure
與
Micro-F-measure
指標上分別可以提升
5.4%
與
4.6%
,優於先前監督式學習法的結果。
彙整而言,本研究所提
R-OSI
方法屬於聚焦式技術,且採用的是半監督式學習法,
因此相較文獻中的相關工作,
R-OSI
技術的第一個優點是不需要花費大量的人力進行
訓練資料的標註與準備。此外,本研究需要人工給予的資料僅有少量用於描述產品特
徵的關鍵字,相較於其他半監督式技術,需要的輸入也是相對簡單的。因此,
R-OSI
技術的實用性是比較高的,也比較不會受到領域相依這類情感分析常見問題的影響。
然而,
R-OSI
技術也不是在任何類型的產品或評論文章上都可以有相似的效能表現的。