臺大管理論叢
第
27
卷第
2S
期
13
(Flash)
、圖像
(Image)
、鏡頭
(Lens)
、記憶體
(Memory)
、價格
(Price)
、螢幕
(Screen)
與
視頻
(Video)
等八類。為增加實證評估結果一般化的能力,本研究另外自
Shopping
5
網站的數位相機類別中抓取了
1,500
個句子,並參考相同的八類產品特徵來
進行資料標註。彙總而言,用於評估技術效能的使用者產生資料文集包含
4,500
個句
子,各產品特徵的意見句子數為:電池
182
句、閃光燈
99
句、圖像
499
句、鏡頭
324
句、記憶體
111
句、價格
284
句、螢幕
133
句與視頻
115
句。表二為社群媒體文集與
使用者產生資料文集兩個資料集的摘要說明。
另外,本研究還需要人工給定產品特徵的描述關鍵字(即
Q
j
),以便進行識別規
則學習。為分析產品特徵描述關鍵字完整程度對學習效果的影響,本研究針對每個產
品特徵分別給予一到三個關鍵字作為描述,各產品特徵的三個關鍵字依序為:電池
(Battery, Rechargeable, Lithium)
、閃光燈
(Flash, Temperature, Synchronization)
、圖像
(Image, Quality, Resolution)
、鏡頭
(Lens, Zoom, Aperture)
、記憶體
(Memory, Storage,
Card)
、價格
(Price, Money, Cost)
、螢幕
(Screen, LCD, Inch)
與視頻
(Video, Movie,
FullHD)
。
表
2
資料集摘要
資料集
資料來源
描述
社群媒體文集
(
SMC
)
小文集
RateItAll
442,509
個未經標註的評論句子。
大文集
RateItAll
、
Epinions
、
Amazon
2,318,823
個未經標註的評論句子。
使用者產生資料文集
(
UGC
)
Amazon
、
Shopping
4,500
個經人工標註的評論句子 (
3,000
句來自
Amazon
、
1,500
句來自
Google Shopping
),
作為驗證系統效能的測試資料。
二、評估指標
本研究採用常見的
F-measure
當成評估指標。但由於我們的資料集涵蓋了
8
個產
品特徵,因此將
8
個產品特徵的
F-measure
值採用巨觀
(Macro)
和微觀
(Micro)
兩個方
式來進行彙總
(Yang et al., 2010)
,做為整體表現的評估指標。以表
3
的混淆矩陣為例,
進行評估指標的定義。假設真實類別為討論產品特徵
f
且被技術標註為討論產品特徵
f
的句子有
tp
f
句、真實類別為討論產品特徵
f
且被技術標註為不是討論產品特徵
f
的句
子有
fn
f
句、真實類別為不是討論產品特徵
f
且被技術標註為討論產品特徵
f
的句子有
fp
f
句、真實類別為不是討論產品特徵
f
且被技術標註為不是討論產品特徵
f
的句子有
tn
f
句,首先定義準確率
(Precision)
與召回率
(Recall)
如式
3
與式
4
。而
F-measure
為準
5
http://www.google.com/shopping