I 11 Table of Contents 13 X

臺大管理論叢第31卷第1期

12 The Moderating Effect of Review Involvement on the Relationship between Low-Cost Carriers Service Quality and Customer Satisfaction 字詞。以上處理程序目的為提升文本分析成效，將非結構化資料轉換為結構化資料，提高後續模型分析結果的準確度。（二 ) 文字處理本研究使用Python 語言的gensim套件及NLTK套件進行文字處理的步驟，英文斷詞過程包含：斷詞 (Tokenization)、詞幹提取 (Stemming)、詞態還原 (Lemmatization) 及詞性標記，並刪除標點符號、特殊符號、數字、停用詞以及贅字等。其中停用詞加入10 家航空公司名稱、國家以及城市名稱。為求研究精準，斷詞過程使用N-gram檢查文本，確保以最符合語意的字詞排序。最後，經前述文字處理過程，共得1,037個有效字詞。（三 ) TF-IDF 關鍵字分析 TF- IDF全名為詞頻－逆向文件頻率 (Term Frequency- inverse Document Frequency) 演算法，是文字探勘中常用的加權統計方法，用以評估某特定字詞在一份文件中的重要程度，其加權值為詞頻 (Term Frequency; TF) 與逆向文件頻率 (Inverse Document Frequency; IDF) 相乘所得，TF-IDF值愈高表示某特定字詞愈重要，公式如圖3。 W i , j = tf i , j × idf i 圖3 TF-IDF公式公式中，tf i , j 為第i 個字詞中在第j 個評論中出現的次數；idf i 等於 log|{d |D f | }| ， D表示本研究蒐集的評論總數，df t 為第i 個字詞在所有評論中出現的次數；W i , j 為加權值，由tf i , j 與idf i 相乘所得。由前述公式推演可知，TF-IDF值與字詞在單一評論的出現次數成正比，與字詞在總評論出現則數成反比。換言之，若某特定字詞在少數評論中被大量提及，即為重要關鍵字；反之，若每篇評論皆出現某特定字詞，該字詞重要性則愈低。本研究利用TF-IDF值從評論內容，忽略詞頻 (Term Frequency; TF) 小於70的字詞，計算出470個字詞，供後續重要字詞篩選。四、情感分析情感分析 (Sentiment Analysis) 亦稱為意見挖掘 (Opinion Mining)，用於分析說話者對實體（如：產品、服務、事件等）的觀點、態度、情感狀態或情緒。過去研究多以建立情緒詞彙或監督式學習方法進行分析，而本研究採用Google Cloud Natural Language API，為Google 於2016 年提出的工具，運用機器學習 (Machine Learning)

Made with FlippingBook

RkJQdWJsaXNoZXIy ODg3MDU=