
48
doi:10. 3969/j. issn. 1009 3230.2017.02.012
应用能源技术
2017年第2期(总第230期)
基于Java语言的新闻分类系统功能操作模块的实现
沙志千
(哈尔滨天源自动化控制技术有限责任公司,哈尔滨150036)
摘要:随着当今互联网的飞速发展及其影响力的不断扩大,网络上的信息量也随之不断增加。面对浩瀚如海的网络信息,依靠人工完成信息分类的方法已经无法满足实际的需求,基于用户关注度的个性化新阴推荐系统应运而生。文中为新闻推荐系统的操作提供了可实现模块。通过对网络爬虫程序抓取的网页进行内容清洗提取出主要内容,建立文档模型,并采用贝叶斯分类方法建立推荐库。基于从客户端采集的用户兴趣信息建模,以及根据该模型和推荐库的相似度,给用户推荐信息。试验结果表明,系统较好地实现了基于用户兴趣来推荐阅读的信息。
关键词:新闻分类系统;兴趣模型;贝叶斯分类
中图分类号:TP316.6
文献标志码:B
文章编号:10093230(2017)02-0048-04
Implementation of Functional Operation Module of News
Classification System Based on Java
SHA Zhi-qian
(Harbin Tianyuan Automation Control Technology Co., Ltd. Harbin 150036, China) Abstract: With the rapid development of the Internet and its impact, the amount of information on the Internet is growing. In the face of massive information network, the method of manual classification has been unable to meet the actual needs of users. This paper provides an implementable module for news recommendation system operation. The key elements are extracted through cleaning the content of web page which crawled by web crawling program. The model is built to recommend information to user based on user interest information collected from client and the similarity between this model and recommended library. In addition, implementing of the recommendation system is introduced.The precision ratio is used to evaluate this system, and its experimental results show that our system has good at recommending information to users according to their interests.
Key words: News' classification system; User' s interest model; Bayesian classification
0引言
随着网络时代的到来,人们了解新闻不仅仅通过电视、报纸等媒介,更多的还来源于网络。而网络新闻具有信息量大,传递快速,没有时空限制等特点。面对海量变化迅速的网络新闻,用户面临的选择越来越多,在这样的环境下,为了能够更
收稿日期:20161225
5修订日期:201701-15
作者简介:沙志于,男,主要从事计算机语言分类及软件开
发等工作。
万方数据
好地为用户推荐比较符合用户兴趣的新闻列表,个性化新闻推荐系统成为网络新闻检索领域的一项重要研究内容。开发这样的系统需要解决抓取爬虫程序并提取主要内容和建立推荐库等问题。
1
网页新闻的获取
管理员可进行对网页新闻内容的爬取,分别
作为训练集显示在首页和测试集显示在管理员要推荐的新闻页面,管理员对获取的测试集进行分类,分类完成后,按照用户的喜好把新闻推荐给