Table of Contents Table of Contents
Previous Page  10 /342 Next Page
Information
Show Menu
Previous Page 10 /342 Next Page
Page Background

社群媒體中顧客知識之挖掘:意見探勘技術開發

10

此外,由圖

2

還可以發現,一個句子中存在許多經常出現,卻沒有太多語意含

量的字詞,例如,定冠詞

“the”

、介係詞

“of”

、連接詞

“but”

等。一般而言,名詞用

來表示被評論的對象(例如,電池

(Battery)

)、動詞用來表示各類動作(例如,耗

(Drain)

),而形容詞(例如,可再充電的

(Rechargeable)

)和副詞(例如,電地

(Electrically)

)分別用來修飾名詞和動詞,因此有意義字詞選擇步驟僅選取標註為名

詞、動詞、形容詞與副詞

(Taboada et al., 2011)

的字詞。完成前處理後,每一個句子將

改以一組由名詞、動詞、形容詞與副詞表示的字詞集合,即

W

i

= {

w

1

,

w

2

,

,

w

ni

}

,其

n

i

為句子

s

i

中有意義的字詞數。以圖

2

為例,該句子

s

i

將轉換成

W

i

= {“battery,” “life,”

“camera,” “be,” “good,” “price,” “unacceptable”}

• Original Word

POS

Stem

• The

DT

the

• battery

NN

battery

• life

NN

life

• Of

IN

of

• this

DT

this

• camera

NN

camera

• Is

VBZ

be

• good

JJ

good

• ,

,

,

• but

CC

but

• the

DT

the

• price

NN

price

• Is

VBZ

be

• unacceptable

JJ

unacceptable

• .

SENT

.

2 TreeTagger

詞性標註範例

(四)規則學習

本步驟的目的是對產品特徵

f

j

歸納出一組產品特徵識別規則,以利對未知的社群

媒體文章進行產品特徵的識別。之所以選擇類別關聯規則演算法作為

R-OSI

技術的識

別模型學習法,是因為

R-OSI

技術並沒有完整的訓練資料集,其中需包含人工標註的

正負範例(有討論/沒討論某個產品特徵);相反地,只有系統自動檢索來的候選意