社群媒體中顧客知識之挖掘:意見探勘技術開發
10
此外,由圖
2
還可以發現,一個句子中存在許多經常出現,卻沒有太多語意含
量的字詞,例如,定冠詞
“the”
、介係詞
“of”
、連接詞
“but”
等。一般而言,名詞用
來表示被評論的對象(例如,電池
(Battery)
)、動詞用來表示各類動作(例如,耗
盡
(Drain)
),而形容詞(例如,可再充電的
(Rechargeable)
)和副詞(例如,電地
(Electrically)
)分別用來修飾名詞和動詞,因此有意義字詞選擇步驟僅選取標註為名
詞、動詞、形容詞與副詞
(Taboada et al., 2011)
的字詞。完成前處理後,每一個句子將
改以一組由名詞、動詞、形容詞與副詞表示的字詞集合,即
W
i
= {
w
1
,
w
2
,
⋯
,
w
ni
}
,其
中
n
i
為句子
s
i
中有意義的字詞數。以圖
2
為例,該句子
s
i
將轉換成
W
i
= {“battery,” “life,”
“camera,” “be,” “good,” “price,” “unacceptable”}
。
• Original Word
POS
Stem
• The
DT
the
• battery
NN
battery
• life
NN
life
• Of
IN
of
• this
DT
this
• camera
NN
camera
• Is
VBZ
be
• good
JJ
good
• ,
,
,
• but
CC
but
• the
DT
the
• price
NN
price
• Is
VBZ
be
• unacceptable
JJ
unacceptable
• .
SENT
.
圖
2 TreeTagger
詞性標註範例
(四)規則學習
本步驟的目的是對產品特徵
f
j
歸納出一組產品特徵識別規則,以利對未知的社群
媒體文章進行產品特徵的識別。之所以選擇類別關聯規則演算法作為
R-OSI
技術的識
別模型學習法,是因為
R-OSI
技術並沒有完整的訓練資料集,其中需包含人工標註的
正負範例(有討論/沒討論某個產品特徵);相反地,只有系統自動檢索來的候選意