臺大管理論叢第31卷第1期

12 The Moderating Effect of Review Involvement on the Relationship between Low-Cost Carriers Service Quality and Customer Satisfaction 字詞。以上處理程序目的為提升文本分析成效,將非結構化資料轉換為結構化資料, 提高後續模型分析結果的準確度。 (二 ) 文字處理 本研究使用Python 語言的gensim套件及NLTK套件進行文字處理的步 驟,英文斷詞過程包含:斷詞 (Tokenization)、詞幹提取 (Stemming)、詞態還原 (Lemmatization) 及詞性標記,並刪除標點符號、特殊符號、數字、停用詞以及贅字 等。其中停用詞加入10 家航空公司名稱、國家以及城市名稱。為求研究精準,斷 詞過程使用N-gram檢查文本,確保以最符合語意的字詞排序。最後,經前述文字 處理過程,共得1,037個有效字詞。 (三 ) TF-IDF 關鍵字分析 TF- IDF全名為詞頻-逆向文件頻率 (Term Frequency- inverse Document Frequency) 演算法,是文字探勘中常用的加權統計方法,用以評估某特定字詞在 一份文件中的重要程度,其加權值為詞頻 (Term Frequency; TF) 與逆向文件頻率 (Inverse Document Frequency; IDF) 相乘所得,TF-IDF值愈高表示某特定字詞愈重 要,公式如圖3。 W i , j = tf i , j × idf i 圖3 TF-IDF公式 公式中,tf i , j 為第i 個字詞中在第j 個評論中出現的次數;idf i 等於 log|{d |D f | }| , D表示本研究蒐集的評論總數,df t 為第i 個字詞在所有評論中出現的次數;W i , j 為 加權值,由tf i , j 與idf i 相乘所得。由前述公式推演可知,TF-IDF值與字詞在單一 評論的出現次數成正比,與字詞在總評論出現則數成反比。換言之,若某特定字 詞在少數評論中被大量提及,即為重要關鍵字;反之,若每篇評論皆出現某特定 字詞,該字詞重要性則愈低。本研究利用TF-IDF值從評論內容,忽略詞頻 (Term Frequency; TF) 小於70的字詞,計算出470個字詞,供後續重要字詞篩選。 四、情感分析 情感分析 (Sentiment Analysis) 亦稱為意見挖掘 (Opinion Mining),用於分析說話 者對實體(如:產品、服務、事件等)的觀點、態度、情感狀態或情緒。過去研究 多以建立情緒詞彙或監督式學習方法進行分析,而本研究採用Google Cloud Natural Language API,為Google 於2016 年提出的工具,運用機器學習 (Machine Learning)

RkJQdWJsaXNoZXIy ODg3MDU=