臺大管理論叢 NTU Management Review VOL.27 NO.2S

社群媒體中顧客知識之挖掘：意見探勘技術開發

擬訓練資料

(Pseudo-training Data)

，進行識別模型學習。彙整而言，本研究的方法相較

於

Yang et al. (2010)

方法的優勢是所需的人工成本低很多，以第四章的實驗設定為例，

當要對某個產品特徵進行識別模型學習時，本研究的方法僅需使用者提供

1~3

個關鍵

字，而

Yang et al. (2010)

的方法需要人工閱讀所有

4,500

個評論句子，並標註那些句

子有討論特定的產品特徵。

此外，本研究與

Yang et al. (2009)

的方法也有一定的相似性，都是半監督式學習

法，也就是都不需人工標註所有資料，但在分析的演算法上是不相同的，

Yang et al.

(2009)

是結合資訊檢索與協同過濾來進行意見句子識別，而本研究是使用類別關聯規

則演算法。更重要的差異是，

Yang et al. (2009)

的方法需要收集其他使用者的查詢期

間

(Query Sessions)

，才能夠進行協同過濾，而本研究的方法完全不需要，也不會面臨

協同過濾常見的冷啟動

(Cold Start)

問題

(Schein, Popescul, Ungar, and Pennock, 2002;

Zhou, Yang, and Zha, 2011)

。

二、意見傾向判定

在產品特徵擷取完成後，意見傾向判定著重於決定產品特徵的情感類別，也就是

使為者的主觀評價是正向或負向。意見傾向判定最直覺的一個作法，就是將它視為句

子層級的情感分類

(Sentiment Classification)

，也就是將每一個產品特徵所在的句子（或

意見句子），給予一個適當的情感類別（通常分成正向、副向兩個類別）

(Chen and

Zhou, 2010; Das and Chen, 2007; Feldman, 2013; Liu, 2010, 2012; Pang, Lee, and

Vaithyanathan, 2002; Pang and Lee, 2008; Stepinski and Mittal, 2007; Turney, 2002; Yang,

Chen, and Chang, 2014)

。情感分類的核心工作是利用一組標註好情感類別的訓練資料，

以及一個監督式學習演算法（例如，類神經網路、決策樹、支援向量機、貝氏網路等），

去歸納學習一個分類器，可用來對未知類別的資料進行類別的預測。然而，一個句子

通常可能含有超過一個產品特徵，且針對同一個句子內的多個產品特徵，消費者可能

表達不同的情感傾向，若以情感分類的方式來處理，將無法分辨這種單一句子卻表達

不同意見傾向的現象。例如，本章第二段的例子，

good

是正向的意見字，用來描述

battery life

這個產品特徵；而

unacceptable

是負向意見字，用來描述

price

這個產品特

徵。因為他們同在一個句子中，傳統的情感分類技術不易處理這個現象。

另一種作法是以詞彙

(Lexicon)

為基礎的方法

(Ding, Liu, and Yu, 2008; Hu and Liu,

2004a, 2004b; Taboada, Brooke, Tofiloski, Voll, and Stede, 2011)

，其採用一組正向與負向

意見字詞（例如，分別使用好

(Good)

和壞

(Bad)

來表示正向和負向的意見字詞），和

一些語言學規則

(Linguistic Rules)

（例如，一個意見字詞（例如，

bad

）和否定字（例

如，

not

）同時出現時，意見字詞的傾向需相反，即

bad

的語意傾向是負向的，但

not

bad

的語意傾向卻是正向的），以決定在意見句子中產品特徵的語意傾向。