

社群媒體中顧客知識之挖掘:意見探勘技術開發
6
擬訓練資料
(Pseudo-training Data)
,進行識別模型學習。彙整而言,本研究的方法相較
於
Yang et al. (2010)
方法的優勢是所需的人工成本低很多,以第四章的實驗設定為例,
當要對某個產品特徵進行識別模型學習時,本研究的方法僅需使用者提供
1~3
個關鍵
字,而
Yang et al. (2010)
的方法需要人工閱讀所有
4,500
個評論句子,並標註那些句
子有討論特定的產品特徵。
此外,本研究與
Yang et al. (2009)
的方法也有一定的相似性,都是半監督式學習
法,也就是都不需人工標註所有資料,但在分析的演算法上是不相同的,
Yang et al.
(2009)
是結合資訊檢索與協同過濾來進行意見句子識別,而本研究是使用類別關聯規
則演算法。更重要的差異是,
Yang et al. (2009)
的方法需要收集其他使用者的查詢期
間
(Query Sessions)
,才能夠進行協同過濾,而本研究的方法完全不需要,也不會面臨
協同過濾常見的冷啟動
(Cold Start)
問題
(Schein, Popescul, Ungar, and Pennock, 2002;
Zhou, Yang, and Zha, 2011)
。
二、意見傾向判定
在產品特徵擷取完成後,意見傾向判定著重於決定產品特徵的情感類別,也就是
使為者的主觀評價是正向或負向。意見傾向判定最直覺的一個作法,就是將它視為句
子層級的情感分類
(Sentiment Classification)
,也就是將每一個產品特徵所在的句子(或
意見句子),給予一個適當的情感類別(通常分成正向、副向兩個類別)
(Chen and
Zhou, 2010; Das and Chen, 2007; Feldman, 2013; Liu, 2010, 2012; Pang, Lee, and
Vaithyanathan, 2002; Pang and Lee, 2008; Stepinski and Mittal, 2007; Turney, 2002; Yang,
Chen, and Chang, 2014)
。情感分類的核心工作是利用一組標註好情感類別的訓練資料,
以及一個監督式學習演算法(例如,類神經網路、決策樹、支援向量機、貝氏網路等),
去歸納學習一個分類器,可用來對未知類別的資料進行類別的預測。然而,一個句子
通常可能含有超過一個產品特徵,且針對同一個句子內的多個產品特徵,消費者可能
表達不同的情感傾向,若以情感分類的方式來處理,將無法分辨這種單一句子卻表達
不同意見傾向的現象。例如,本章第二段的例子,
good
是正向的意見字,用來描述
battery life
這個產品特徵;而
unacceptable
是負向意見字,用來描述
price
這個產品特
徵。因為他們同在一個句子中,傳統的情感分類技術不易處理這個現象。
另一種作法是以詞彙
(Lexicon)
為基礎的方法
(Ding, Liu, and Yu, 2008; Hu and Liu,
2004a, 2004b; Taboada, Brooke, Tofiloski, Voll, and Stede, 2011)
,其採用一組正向與負向
意見字詞(例如,分別使用好
(Good)
和壞
(Bad)
來表示正向和負向的意見字詞),和
一些語言學規則
(Linguistic Rules)
(例如,一個意見字詞(例如,
bad
)和否定字(例
如,
not
)同時出現時,意見字詞的傾向需相反,即
bad
的語意傾向是負向的,但
not
bad
的語意傾向卻是正向的),以決定在意見句子中產品特徵的語意傾向。