Table of Contents Table of Contents
Previous Page  2 /342 Next Page
Information
Show Menu
Previous Page 2 /342 Next Page
Page Background

社群媒體中顧客知識之挖掘:意見探勘技術開發

2

壹、緒論

資訊科技與網際網路的成熟與普及,促成眾多新興應用的蓬勃發展,各式資料開

始快速地產生與累積,這些大量的資料中隱藏著許多有價值的資訊與知識,值得妥善

分析與利用。以

Google

的流行性感冒傳染趨勢研究為例,藉由分析搜尋引擎的大量

使用者查詢資料,發現某些流感相關查詢字詞與真實流感傳染趨勢高度相關,可做為

快速、有效的預測工具

(Ginsberg, Mohebbi, Patel, Brammer, Smolinski, and Brilliant,

2009)

。然而,隨著資料數量

(Volume)

與格式多樣性

(Variety)

的成長,對資料分析的

高時效

(Velocity)

需求,以及多元資料帶來的資料品質和可靠度的真實性

(Veracity)

題,上述巨量資料的

4V

特性,增加了資料分析的難度,使得企業與個人皆身處一個

空有大量資料,卻無法有效找出有價值知識的情境,如同

Naisbitt (1982)

在他的名著

Megatrends

中提到的

“We are drowning in information (data) but starved for knowledge”

根據

EMC

委託

IDC

所進行的一項數位世界研究報告

(EMC Digital Universe with

Research & Anglysis by IDC, 2014)

,自

2013

年起的

10

年間,全球資料量每年將以

40%

速度成長,由

2013

年的

4.4ZB (Zettabyte)

急速攀升到

2020

44ZB

。此外,資料

的產生來源也由企業主導,轉移到由個人使用者產生,

2013

年的數據顯示,有三分之

二的資料是由個人使用者產生的。雖然資料量大量累積,但是在

2013

年時,其中只

22%

的資料在經過適當的標註與分析後可能會有價值,而真正具有高價值的資料

(High Value Data)

則僅占

1.5%

。除了國外的數據外,國內也呈現相似的高速成長趨勢。

以全國性繳費即時交易為例,

2012

2013

年的交易筆數分別為

1,061

萬筆與

1,250

筆,增加

189

萬筆,成長率為

17.8%

;而

2013

2014

年上半年的比較,更發現高達

24.1%

的成長率(鍾珍珠與郭玉慧,

2014

)。此外,財政部財政資訊中心(蘇俊榮,

2015

)的統計數據

1

顯示,政府目前的財政數據約有

740

億筆資料,約為

74TB

的大小。

為了解決從大量資料中挖掘有用知識的需求,各式新穎巨量資料分析

(Big Data

Analytics)

技術蓬勃發展

(Manyika, Chui, Brown, Bughin, Dobbs, Roxburgh, and Byers,

2011; Chen, Chiang, and Storey, 2012)

為有效支援巨量資料分析的發展,需要同時兼顧底層基礎技術(例如,

Hadoop

Hbase

MapReduce

等)與上層分析技術(例如,社群媒體分析、意見探勘、資訊視

覺化等)的發展。本研究的重點在於發展巨量資料分析的上層分析技術,並聚焦在意

見探勘議題,其可以協助自大量使用者產生資料

(User Generated Content)

中,挖掘出

使用者表達的主觀意見與看法。藉由快速、有效的使用者意見挖掘與彙整,可以轉換

成顧客知識,用以協助各式商業智慧應用的進行。例如,製造商可以取得消費者的電

1

財政部財政資訊中心,蘇俊榮主任

104

1

9

日的演講資料。