

社群媒體中顧客知識之挖掘:意見探勘技術開發
18
表
6
社群媒體文集大小對
R-OSI
技術的影響
門檻值
#
Precision
Recall
F-measure
小文集
(RateItAll)
Macro
0.005; 0.15
77.3%
72.4% 74.8%
Micro
0.005; 0.15
75.4%
61.9% 68.0%
小文集
(Epinions)
Macro
0.007; 0.15
77.2%
74.5%
75.9%
Micro
0.005; 0.15
75.1%
66.0% 70.2%
小文集
(Amazon)
Macro
0.005; 0.15
77.6%*
71.9% 74.7%
Micro
0.005; 0.15
75.7%
61.5% 67.8%
大文集
(R
∩
A
∩
E
┴
)
Macro
0.005; 0.2
77.1%
74.6%
75.8%
Micro
0.005; 0.2
74.4%
65.5% 70.1%
#
:依序為最小支持度
(Min-supp)
門檻值與最小信心度
(Min-conf)
門檻值。
┴
:
R
∩
A
∩
E
表示將
RateItAll
、
Amazon
與
Epinions
三個文集做聯集。
*
:粗體字代表各指標在大小文集間最佳的表現。
除了社群媒體文集大小的影響外,
R-OSI
技術的效能是否會隨著社群媒體文集中
句子數的減少而隨之下降,也是一項重要的議題。因此,我們自原本包含
44
萬個句
子的
RateItAll
社群媒體文集中,分別抽出
30
萬、
20
萬和
10
萬個句子,降地社群媒
體文集的句子數,來評估對
R-OSI
技術的影響,結果如表
7
所示。可以發現,
RateItAll
文集的句子數降到
30
萬和
20
萬句時,
R-OSI
技術的效能完全沒有改變,當
句子數降到
10
萬句時,
Macro-F-measure
與
Micro-F-measure
的值才分別下降
0.1%
與
0.2%
,可見
R-OSI
技術的穩定性相當好。
表
7
社群媒體文集句子數對
R-OSI
技術的影響(使用
RateItAll
文集)
句子筆數
門檻值
#
Precision
Recall
F-measure
44
萬
Macro
0.005; 0.15
77.3%
72.4%
74.8%
Micro
0.007; 0.15
75.4%
61.9%
68.0%
30
萬
Macro
0.005; 0.15
77.3%
72.4%
74.8%
Micro
0.005; 0.15
75.5%
61.8%
68.0%
20
萬
Macro
0.005; 0.15
77.3%
72.4%
74.8%
Micro
0.005; 0.15
75.5%
61.8%
68.0%
10
萬
Macro
0.005; 0.15
77.6%
71.9%
74.7%
Micro
0.005; 0.15
75.7%
61.5%
67.8%
最後,我們分析產品特徵描述關鍵字完整性對
R-OSI
技術的影響,在使用小社群
媒體文集的情況下(在大文集裡有相似的發現),分別利用一個、二個和三個產品特
徵描述關鍵字來學習產品特徵識別規則,結果如表
8
所示。可以發現,當產品特徵描
述完整性越高時(即關鍵字字數越多),多可以提升召回率
(Recall)
指標,因為較完