臺大管理論叢
第
27
卷第
2S
期
9
的識別規則前,得先從社群媒體文集眾多的句子中,挑選出確實討論產品特徵
f
j
的句
子來,這個過程稱為意見句子檢索。最簡單的進行方式為人工挑選,然而,社群媒體
文集的句子數量相當龐大,且要分析的產品與特徵也相當多,以人工挑選方式來進行
太過費時費工,因此本研究設計一個自動化的候選意見句子檢索機制。
本步驟的輸入資料為之前取得的社群媒體文集,加上一組由使用者提供的產品特
徵
f
j
描述關鍵字。假設我們要分析的對象為手機的「電池」特徵,則使用者可以提供
「電池」、「充電」、「鋰」、「鎳氫」這類的關鍵字作為描述。我們將使用者提供
的產品特徵描述稱為
Q
j
,並利用
Q
j
對社群媒體文集
SMC
進行布林檢索,也就是針對
SMC
中的每個句子
s
i
,檢查是否出現
Q
j
中的關鍵字(
Q
j
中如包含多個關鍵字,以
OR
連接),如果有,則稱
s
i
為候選意見句子。完成本步驟後,可得到產品特徵
f
j
的候選
意見句子集
COS
j
。
因為自動檢索的結果只是有較高的機會是在討論特定產品特徵
f
j
的句子,並不必
然是百分之百正確,因此稱之為候選意見句子。例如,
“AIS lenses are a joy to use with
the D70, even in the manual flash mode.”
這個句子雖然出現
“flash”
這個關鍵字,但該句
子事實上是討論鏡頭
(Lens)
產品特徵,而非閃光燈
(Flash)
。此外,自動檢索的候選意
見句子無法涵蓋未出現產品特徵關鍵字的句子,例如
“I was amazed to see that it was
sharp and relatively well exposed even with poor lighting.”
這個句子雖然沒有出現圖像品
質
(Image Quality)
的關鍵字,但確實是在討論圖像品質這個產品特徵。以本研究第四
章使用的資料為例,相較人工標註的正確結果,自動候選意見句子檢索的
Macro-
precision
與
Macro-recall
為
81.1%
與
49.4%
。
(三)前處理
前處理步驟的目的是將非結構化的候選意見句子,轉換成一組有意義的字詞,同
時豐富這組字詞的語意。本步驟包含三個子工作:詞性標註
(Part-of-speech (POS)
Tagging)
、詞幹還原
(Stemming)
、有意義字詞選擇
(Meaningful Word Selection)
。
詞性標註的目的在對一串字元組成的句子,進行斷字以及詞性標註,以利後續分
析。因為本研究分析的文本為英文,因此採用
TreeTagger (Schmid, 1994, 1999)
來對候
選意見句子集
COS
j
中的每個句子
s
i
作詞性標註。假設要進行標註的句子為
“The
battery life of this camera is good, but the price is unacceptable.”
,在經過
TreeTagger
標註
後,其結果如圖
2
。
TreeTagger
會將句子斷成每個字詞一行,每行含有三部分資訊,
即原始字詞
(Original Word)
、詞性
(POS)
與詞幹
(Stem)
。
緊接著,詞幹還原負責將同一個字詞的不同形式轉換成原形,以避免語意相同的
字詞被誤判為不同字詞的錯誤。例如,
“takes,” “took,” “taken,” “taking”
等字詞都會以
原形字詞
“take”
取代。由圖
2
可以發現,
TreeTagger
也包含詞幹還原的功能(每一行
的第三項資訊即為詞幹),因此本研究一樣使用
TreeTagger
來作詞幹還原。