

社群媒體中顧客知識之挖掘:意見探勘技術開發
12
二、意見句子識別
意見句子識別階段的目的在於利用前一階段產生的產品特徵識別規則
PFIR
j
,來
針對一組自社群媒體抓取來的未經標註的使用者產生資料
(User Generated Content)
文
集
UGC
,自動識別那些句子有討論特定產品特徵
f
j
。
目前本研究採用簡單直覺的識別方式。假設要識別的是產品特徵
f
j
,則針對
UGC
中的每個句子
s
k
,檢查
W
k
中是否含有
PFIR
j
中的字詞,如果有,則視句子
s
k
為討論產
品特徵
f
j
的意見句子,最後產出一組產品特徵
f
j
的意見句子集
OS
j
。一個句子
s
k
可以
同時被歸類為多個產品特徵
f
j
的意見句子,以圖
2
個句子為例,其可能同時被歸類為
討論「電池」與「價格」的意見句子。
肆、實驗評估
本章詳述本研究的實驗評估方式,包括資料收集、評估指標以及重要實驗結果的
探討。
一、資料收集
為評估本研究的規則式意見句子識別技術,主要需要兩組資料集。第一個是產品
特徵識別規則學習階段的社群媒體文集,第二個是意見句子識別階段的使用者產生資
料文集。
為簡化資料收集以及後續分析的複雜度,本研究將分析的主題聚焦在數位相機
上,因此在社群媒體文集的收集上,選定三個重要的數位相機評論網站,分別是
RateItAll
2
、
Epinions
3
與
Amazon
4
,自網站上抓取歸類在數位相機類別下的評論文章。
且為了分析文集大小對產品特徵識別規則學習成果的影響,特別將收集來的資料分成
小文集與大文集。小文集僅含自
RateItAll
抓取的資料,總共有
442,509
個未經標註的
數位相機評論句子。大文集則混和了
RateItAll
、
Epinions
與
Amazon
三個資料來源所
抓到的所有資料,總共有
2,318,823
個句子。
在意見句子識別階段的使用者產生資料文集方面,實際使用時只須準備尚未標註
且有興趣分析的資料,讓產品特徵識別規則來進行自動識別。但為了評估技術的效能,
所以在實驗中,需對這些這些句子進行人工標註,以得到標準答案,方便後續評估指
標的計算。本研究採用的是
Yang et al. (2010)
使用的資料集,該資料集原本包含
3,000
個自
Amazon
取得,且標註好的句子,涵蓋的產品特徵有電池
(Battery)
、閃光燈
2
http://www.rateitall.com/3
http://www.epinions.com/4
http://www.amazon.com/