Table of Contents Table of Contents
Previous Page  6 /342 Next Page
Information
Show Menu
Previous Page 6 /342 Next Page
Page Background

社群媒體中顧客知識之挖掘:意見探勘技術開發

6

擬訓練資料

(Pseudo-training Data)

,進行識別模型學習。彙整而言,本研究的方法相較

Yang et al. (2010)

方法的優勢是所需的人工成本低很多,以第四章的實驗設定為例,

當要對某個產品特徵進行識別模型學習時,本研究的方法僅需使用者提供

1~3

個關鍵

字,而

Yang et al. (2010)

的方法需要人工閱讀所有

4,500

個評論句子,並標註那些句

子有討論特定的產品特徵。

此外,本研究與

Yang et al. (2009)

的方法也有一定的相似性,都是半監督式學習

法,也就是都不需人工標註所有資料,但在分析的演算法上是不相同的,

Yang et al.

(2009)

是結合資訊檢索與協同過濾來進行意見句子識別,而本研究是使用類別關聯規

則演算法。更重要的差異是,

Yang et al. (2009)

的方法需要收集其他使用者的查詢期

(Query Sessions)

,才能夠進行協同過濾,而本研究的方法完全不需要,也不會面臨

協同過濾常見的冷啟動

(Cold Start)

問題

(Schein, Popescul, Ungar, and Pennock, 2002;

Zhou, Yang, and Zha, 2011)

二、意見傾向判定

在產品特徵擷取完成後,意見傾向判定著重於決定產品特徵的情感類別,也就是

使為者的主觀評價是正向或負向。意見傾向判定最直覺的一個作法,就是將它視為句

子層級的情感分類

(Sentiment Classification)

,也就是將每一個產品特徵所在的句子(或

意見句子),給予一個適當的情感類別(通常分成正向、副向兩個類別)

(Chen and

Zhou, 2010; Das and Chen, 2007; Feldman, 2013; Liu, 2010, 2012; Pang, Lee, and

Vaithyanathan, 2002; Pang and Lee, 2008; Stepinski and Mittal, 2007; Turney, 2002; Yang,

Chen, and Chang, 2014)

。情感分類的核心工作是利用一組標註好情感類別的訓練資料,

以及一個監督式學習演算法(例如,類神經網路、決策樹、支援向量機、貝氏網路等),

去歸納學習一個分類器,可用來對未知類別的資料進行類別的預測。然而,一個句子

通常可能含有超過一個產品特徵,且針對同一個句子內的多個產品特徵,消費者可能

表達不同的情感傾向,若以情感分類的方式來處理,將無法分辨這種單一句子卻表達

不同意見傾向的現象。例如,本章第二段的例子,

good

是正向的意見字,用來描述

battery life

這個產品特徵;而

unacceptable

是負向意見字,用來描述

price

這個產品特

徵。因為他們同在一個句子中,傳統的情感分類技術不易處理這個現象。

另一種作法是以詞彙

(Lexicon)

為基礎的方法

(Ding, Liu, and Yu, 2008; Hu and Liu,

2004a, 2004b; Taboada, Brooke, Tofiloski, Voll, and Stede, 2011)

,其採用一組正向與負向

意見字詞(例如,分別使用好

(Good)

和壞

(Bad)

來表示正向和負向的意見字詞),和

一些語言學規則

(Linguistic Rules)

(例如,一個意見字詞(例如,

bad

)和否定字(例

如,

not

)同時出現時,意見字詞的傾向需相反,即

bad

的語意傾向是負向的,但

not

bad

的語意傾向卻是正向的),以決定在意見句子中產品特徵的語意傾向。