社群媒體中顧客知識之挖掘:意見探勘技術開發
2
壹、緒論
資訊科技與網際網路的成熟與普及,促成眾多新興應用的蓬勃發展,各式資料開
始快速地產生與累積,這些大量的資料中隱藏著許多有價值的資訊與知識,值得妥善
分析與利用。以
的流行性感冒傳染趨勢研究為例,藉由分析搜尋引擎的大量
使用者查詢資料,發現某些流感相關查詢字詞與真實流感傳染趨勢高度相關,可做為
快速、有效的預測工具
(Ginsberg, Mohebbi, Patel, Brammer, Smolinski, and Brilliant,
2009)
。然而,隨著資料數量
(Volume)
與格式多樣性
(Variety)
的成長,對資料分析的
高時效
(Velocity)
需求,以及多元資料帶來的資料品質和可靠度的真實性
(Veracity)
議
題,上述巨量資料的
4V
特性,增加了資料分析的難度,使得企業與個人皆身處一個
空有大量資料,卻無法有效找出有價值知識的情境,如同
Naisbitt (1982)
在他的名著
Megatrends
中提到的
“We are drowning in information (data) but starved for knowledge”
。
根據
EMC
委託
IDC
所進行的一項數位世界研究報告
(EMC Digital Universe with
Research & Anglysis by IDC, 2014)
,自
2013
年起的
10
年間,全球資料量每年將以
40%
速度成長,由
2013
年的
4.4ZB (Zettabyte)
急速攀升到
2020
年
44ZB
。此外,資料
的產生來源也由企業主導,轉移到由個人使用者產生,
2013
年的數據顯示,有三分之
二的資料是由個人使用者產生的。雖然資料量大量累積,但是在
2013
年時,其中只
有
22%
的資料在經過適當的標註與分析後可能會有價值,而真正具有高價值的資料
(High Value Data)
則僅占
1.5%
。除了國外的數據外,國內也呈現相似的高速成長趨勢。
以全國性繳費即時交易為例,
2012
與
2013
年的交易筆數分別為
1,061
萬筆與
1,250
萬
筆,增加
189
萬筆,成長率為
17.8%
;而
2013
與
2014
年上半年的比較,更發現高達
24.1%
的成長率(鍾珍珠與郭玉慧,
2014
)。此外,財政部財政資訊中心(蘇俊榮,
2015
)的統計數據
1
顯示,政府目前的財政數據約有
740
億筆資料,約為
74TB
的大小。
為了解決從大量資料中挖掘有用知識的需求,各式新穎巨量資料分析
(Big Data
Analytics)
技術蓬勃發展
(Manyika, Chui, Brown, Bughin, Dobbs, Roxburgh, and Byers,
2011; Chen, Chiang, and Storey, 2012)
。
為有效支援巨量資料分析的發展,需要同時兼顧底層基礎技術(例如,
Hadoop
、
Hbase
、
MapReduce
等)與上層分析技術(例如,社群媒體分析、意見探勘、資訊視
覺化等)的發展。本研究的重點在於發展巨量資料分析的上層分析技術,並聚焦在意
見探勘議題,其可以協助自大量使用者產生資料
(User Generated Content)
中,挖掘出
使用者表達的主觀意見與看法。藉由快速、有效的使用者意見挖掘與彙整,可以轉換
成顧客知識,用以協助各式商業智慧應用的進行。例如,製造商可以取得消費者的電
1
財政部財政資訊中心,蘇俊榮主任
104
年
1
月
9
日的演講資料。