Table of Contents Table of Contents
Previous Page  11 /342 Next Page
Information
Show Menu
Previous Page 11 /342 Next Page
Page Background

臺大管理論叢

27

卷第

2S

11

見句子

COS

j

,相當於正範例。在只有單一類別訓練資料的情況下,大多分類分析方法

都無法有效學習分類模式,但類別關聯規則演算法可以在只有正範例的情況下,依然

歸納出有效的分類規則,所以本研究選擇類別關聯規則演算法。

由於每個候選意見句子

s

i

W

i

必然包含產品特徵

f

j

的描述

Q

j

中的關鍵字,我們

可以學習一組符合

a

b

形式的識別規則,其中

a

是任一個在候選意見句子集

COS

j

中的有意義字詞(即 ),而

b

則為產品特徵

f

j

的描述

Q

j

中的任一關鍵字(即

b Q

j

),因為

Q

j

中的關鍵字可能超過一個,本研究將屬於同一個產品特徵

f

j

的所有

規則彙整(聯集)在一起,再進行後續的支持度和信心度的計算。這樣的規則意味著

當字詞

a

出現時,此評論句子有很高的機率是產品特徵

f

i

的意見句子。例如,考慮下

面的識別規則:

鋰離子

(Lithium-ion)

→電池

(Battery)

毫安時

(mAh)

→電池

(Battery)

可再充電的

(Rechargeable)

→電池

(Battery)

它們指出,假如字詞「鋰離子」、「毫安時」,或「可再充電的」出現在一個句

子中時,我們有較高的信心相信這個句子是有討論產品特徵「電池」的句子,因此可

以將這個句子視為「電池」的意見句子。

為從候選意見句子

COS

j

中自動學習需要的產品特徵識別規則,本研究採用類別

關聯規則

(Class Association Rules)

演算法

(Yang et al., 2010)

來進行分析。該演算法跟

關聯規則

(Association Rules)

演算法

(Agrawal and Srikant, 1994; Srikant and Agrawal,

1995)

類似,唯一個差別是限定規則的右邊須為產品特徵描述

Q

j

中的關鍵字,而規則

左邊則可以是候選意見句子集

COS

j

中的任意字詞。具體而言,在給定最小支持度

(

Min-supp

)

和最小信心度

(

Min-conf

)

門檻值的前提下,若一個規則

a

b

的支持度

(Support)

(式

1

)與信心度

(Confidence)

(式

2

)皆大於

Min-supp

Min-conf

門檻值,

則該規則可視為一個有趣的規則並保留下來,反之,則視為無意義的規則並忽略之。

(式

1

(式

2

其中,

n

(

a

b

)

為同時出現字詞

a

和字詞

b

的句子數,

n

(

a

)

為僅出現字詞

a

的句子數,

N

為總句子數。

在完成規則學習步驟後,可以針對每一個產品特徵

f

j

產生一組產品特徵識別規則

(Product Feature Identification Rules)

,稱為

PFIR

j

,其為所有有趣規則的左邊字詞(即

a

的集合。