臺大管理論叢
第
27
卷第
2S
期
5
Yates, 2005)
的網際網路資訊擷取系統,提出了
OPINE
的技術來從顧客評論自動擷取
產品特徵。此外,
Kobayashi, Iida, Inui, and Matsumoto (2005)
與
Kobayashi, Inui,
Matsumoto, Tateishi, and Fukushima (2004)
也提出了其他以資訊擷取為基礎的產品特徵
擷取技術,其過程與
OPINE
類似,不同點在於擷取模板
(Pattern)
的表示和建構,及
採用的信心度測試。
而聚焦式的方法因為已經指定要分析的產品特徵是什麼,通常需要準備標註好的
訓練資料,因此也稱為監督式方法。因為有訓練資料集,因此聚焦式方法通常採用機
器學期的監督式學習法
(Supervised Learning Algorithms)
,來建構一個識別(分類)模
型,之後就可以使用這個識別模型,從未分類的新資料中,尋找有哪些句子討論了特
定的產品特徵,本研究給聚焦式方法另一個名稱,即意見句子識別
(Opinion Sentence
Identification)
,以利和開放式的產品特徵擷取技術做區分。例如,
Wong and Lam (2005,
2008)
採用
Hidden Markov Model
和
Conditional Random Field
學習演算法,自拍賣網
站中擷取產品的特徵。
Yang et al. (2010)
採用兩種監督式學習演算法,即類別關聯規
則
(Class Association Rules)
和貝式分類器
(Naive Bayes Classifier)
,來判斷意見句子討
論了那些產品特徵。
開放式和聚焦式的技術各有優缺點。聚焦式意見句子識別通常可以達到較好的分
析結果(正確率高),但準備訓練樣本是非常耗費時間和人力的。相反地,開放式的
產品特徵擷取的好處是不需要人工準備訓練樣本,但是卻面臨另一個大問題,使用者
可能使用不同的字來表示同一個產品特徵,因此需要對找到的產品特徵進行分群,以
避免異字同義的問題,例如,當擷取到
‘Zoom,’ ‘Aperture,’ ‘Magnification,’ ‘Focal-
length,’
等字詞時,我們有很高的信心相信這幾個字詞都是在描述「鏡頭」這個產品特
徵,可是如果沒有將這些字詞群聚在一起,他們會被視為不同的產品特徵。因此,另
有學者採用中庸的做法,即半監督式的學習法
(Semi-supervised Learning Algorithms)
來進行。例如,
Yang et al. (2009)
採用資訊檢索
(Information Retrieval)
與協同過濾
(Collaborative Filtering)
的概念去識別意見句子,作法是使用者先提供一個查詢問句
(Query)
來表達感興趣的產品特徵,再利用協同過濾概念去抓取其他使用者的類似查
詢問句,進行查詢問句擴充
(Query Expansion)
,最後進行資訊檢索,找出相關的句子
作為意見句子。
在上述的既有研究中,與本研究最相關的技術是
Yang et al. (2010)
的方法。本研
究與
Yang et al. (2010)
的技術都使用類別關聯規則演算法來進行意見句子識別(分類)
模型的學習,不同的地方主要在訓練資料的準備。
Yang et al. (2010)
的方法採用完全
監督式的做法,也就是需要人工將資料進行標註,作為訓練資料,再進行意見句子識
別模型的學習;而本研究的訓練資料準備是採用半監督式的作法,不需要進行人工資
料標註,相反地,僅需使用者提供少量的產品特徵關鍵字,之後系統會自動去尋找虛