網路文件自動分類

Ku, H. K., and Joung, Y. J. 1998. Automatic Network Documents Classification. NTU Management Review, 9 (1): 201-242

顧皓光, 國立台灣大學資訊管理研究所
莊裕澤, 國立台灣大學資訊管理研究所

Abstract

隨著網路的蓬勃發展,網路上的資訊也相對增加,絕大多數使用過Internet的人,對網路上多彩多姿的資訊,均會驚訝不已;但讚嘆之餘,使用者也會發現,大量且缺乏整理的資訊反而造成更大的困擾。新資訊時代裡,最根本的問題之一就是:如何在浩瀚如海的資訊空間裡,快速的找到並取得所需的資訊。 本論文提出一個適合網路文件自動分類的模型,藉以幫助使用者處理這些資訊。首先,我們使用網路資源蒐集程式將蕃薯藤搜尋引擎上的文件取回,接著使用這些已經具備分類特性的文件當作訓練文件,在機器中建立一個可以模擬人工的向量空間模型。再由測試資料決定系統正確率。另外,鑒於Web文件提供了超文件連結的特性、HTML TAG 標籤加註的功能,我們充分利用這兩項特性,設計實驗方法,藉以提昇系統分類能力。 實驗結果顯示我們提出的方法在13個基本類別條件下,可以正確辨識文件集合中71.2%的文件,辨識錯誤的文件有24.3%,另外有4.5%的文件是屬於無法辨識的文件。  


Keywords

資訊檢索文件自動分類向量空間模型超文件連結HTML TAG


Recommended for you

N/A
本網站臺大管理論叢 | 10617台北市羅斯福路四段一號 臺大管理學院一號館3F
TEL: +886-2-33661026  +886-2-33665404  

E-mail: ntupmcenter@ntu.edu.tw
「本刊113年獲國家科學及技術委員會人文社會科學研究中心補助」

訂閱電子報