臺大管理論叢
第
27
卷第
2S
期
11
見句子
COS
j
,相當於正範例。在只有單一類別訓練資料的情況下,大多分類分析方法
都無法有效學習分類模式,但類別關聯規則演算法可以在只有正範例的情況下,依然
歸納出有效的分類規則,所以本研究選擇類別關聯規則演算法。
由於每個候選意見句子
s
i
的
W
i
必然包含產品特徵
f
j
的描述
Q
j
中的關鍵字,我們
可以學習一組符合
a
→
b
形式的識別規則,其中
a
是任一個在候選意見句子集
COS
j
中的有意義字詞(即 ),而
b
則為產品特徵
f
j
的描述
Q
j
中的任一關鍵字(即
b Q
j
),因為
Q
j
中的關鍵字可能超過一個,本研究將屬於同一個產品特徵
f
j
的所有
規則彙整(聯集)在一起,再進行後續的支持度和信心度的計算。這樣的規則意味著
當字詞
a
出現時,此評論句子有很高的機率是產品特徵
f
i
的意見句子。例如,考慮下
面的識別規則:
鋰離子
(Lithium-ion)
→電池
(Battery)
毫安時
(mAh)
→電池
(Battery)
可再充電的
(Rechargeable)
→電池
(Battery)
它們指出,假如字詞「鋰離子」、「毫安時」,或「可再充電的」出現在一個句
子中時,我們有較高的信心相信這個句子是有討論產品特徵「電池」的句子,因此可
以將這個句子視為「電池」的意見句子。
為從候選意見句子
COS
j
中自動學習需要的產品特徵識別規則,本研究採用類別
關聯規則
(Class Association Rules)
演算法
(Yang et al., 2010)
來進行分析。該演算法跟
關聯規則
(Association Rules)
演算法
(Agrawal and Srikant, 1994; Srikant and Agrawal,
1995)
類似,唯一個差別是限定規則的右邊須為產品特徵描述
Q
j
中的關鍵字,而規則
左邊則可以是候選意見句子集
COS
j
中的任意字詞。具體而言,在給定最小支持度
(
Min-supp
)
和最小信心度
(
Min-conf
)
門檻值的前提下,若一個規則
a
→
b
的支持度
(Support)
(式
1
)與信心度
(Confidence)
(式
2
)皆大於
Min-supp
與
Min-conf
門檻值,
則該規則可視為一個有趣的規則並保留下來,反之,則視為無意義的規則並忽略之。
(式
1
)
(式
2
)
其中,
n
(
a
∩
b
)
為同時出現字詞
a
和字詞
b
的句子數,
n
(
a
)
為僅出現字詞
a
的句子數,
N
為總句子數。
在完成規則學習步驟後,可以針對每一個產品特徵
f
j
產生一組產品特徵識別規則
(Product Feature Identification Rules)
,稱為
PFIR
j
,其為所有有趣規則的左邊字詞(即
a
)
的集合。