您当前的位置:首页>论文资料>财经新闻挖掘系统中特征选择算法研究

财经新闻挖掘系统中特征选择算法研究

资料类别:论文资料

文档格式:PDF电子版

文件大小:206.9 KB

资料语言:中文

更新时间:2024-11-21 09:51:58



推荐标签:

内容简介

财经新闻挖掘系统中特征选择算法研究 学术论坛
财经新闻挖掘系统中特征选择算法研究
卢章玮甘甜甜郭斌孙大鹏任立伟(北方工业大学北京100144)
然事执术与点用
摘要:即时发市的财经新阅对于金融审场具有一定的影响作用。文本挖据技术通过分析以往的财经新阔和市场变化来判断未来的市场趋势。本文分析比较了文本挖摄技术中常用的四种特征选择方法在财经新阅挖据系统中的作用,即信息增益、互信息、期望交叉端和X统计方法,并得出X"统计方法能够最有效的提高系统的分要性能的结论。
关键调:特征选择文本挖据财经新阅
中图分类号:TP18 1、引言
文献标识码:A
文章编号:1007-9416(2011)12-0244-02
务是将汉字序列切分成一个一个单独的词,从而能够被计算机理解和处理。目前中文分词方法主要有三类:基于字符审匹配、基于统计
在社会经济生活中,财经新闻的作用不可忽视。人们可以依靠即时准确的财经新闻进行投资管理,判断市场动向以及指导经营决策。金融市场瞬息万变,竞争激烈,决策者需要根据即时报道的财经新闻作出恰当反应并制定相应的解决方案。但是在当前的信息社会中,仅仅依靠人力已难以完成对大量新闻报道的收集和分类工作,因此需要借助计算机技术实现。
本文以财经新阳对股票市场的影响为例,构建了一个用于研究股票价格走势的财经新闻挖掘系统模型。将财经新阴影响下的股票价格变化看作是个文本分类问题,即根据新闻发布后相关公司股价是上升还是下降,可以将新闻分成积极和消极两大类。据此通过训练财经新闻分类器来判断新发布的一篇财经新闻对公司股价的影响。特征选择方法能够挑选出有效的分类特征,从面提高文本分类的性能,文中重点研究了信息增益、互信息、期望交叉炳、x统计
法四种特征选择方法在新闻文本分类中的效果。 2、财经新配挖掘系统
财经新阳挖掘系统主要分为两部分:新闻文本表示和文本分类,系统结构如下图所示。
调性续生程
得式生理
族文典
文本表示
文本分类
完别解性文本损关理特能选特保肉量将续分典器
文热痛类然棕注文本预划理静症角量.. 办共继最详价
图1财经新阅挖掘系统结构图
其中文本表示包括文本的类别标注、文本预处理、最后根据向量空间模型将文本表示成特征向量的形式。文本分类是指采取某种分类算法,通过训练训练样本构造分类器,从而对测试样本进行分类的过程。
2.1文本类别标注
文本分类是一种有指导机器学习间题,它需要事先定义一些主题类别,然后根据文本的内容自动将每篇文档归人其中的一个类别。根据财经新闻对于当日股票价格的影响,人工分析文本的类别并在文本名前加注类别标识(1表示上升类,1表示下降类)以供训练分类器使用。
2.2文本预处理
中文文本预处理主要包括中文分调和去停用词。中文分词的任
244)方游数据
和基于理解的分词方法,本系统中采取了最常用、最易实现的第一种分词方法一字符串匹配方法。停用词指在文本中多次出现但没有意义的词语,主要包括虚词、介词、连词.副词等。这些词对文本分类没有贡献,反而会降低分类性能,因此在预处理时应过滤掉。
2.3向量空间模型
系统使用向量空间模型(VSM)对文本进行表示,VSM的基本思想是将文本看作特征词的集合,并使用特征词的权向量表示文本,能够将文本内容转换或易为计算机处理的向量方式。
特征词是一组从文本中提取出来的可以代表文本内容的关键词,根据特征词在文本中的重要程度,给每个特征词赋予一个权值。
文本集合中的所有特征词构成一个词汇表,著一个词汇表包含 n个特征词,那么该词汇表可定义为一个n维空间,文本可以表示为这个空间中的n维向量,向量在每一维上的分量为该维对应的特征词在文本中的权值。
2.4文本分类
目前存在多种基于向量空间模型的分类算法,例如K-近邻算法、朴索贝叶斯算法、神经网络方法、支持向量机算法(SVM)等等,本系统采用SVM分类算法,SVM的基本思想是在向量空间中构造
一个超平面作为决策面,使两类之间的距离最大。 3、特征选择方法
当分析大量新闻文本时,用来表示文本的特征向量的维数也会很大,可能会达到儿万维,如此高维的特征空间会使分类算法无法进行或效率很低,因此需要对特征空间进行降维处理。特征选择即是一个有效的降维方法。
特征选择方法的思想就是采用某种评估函数对每个特征词进行计算,然后按照计算结果的高低排列,数值大于预先设定的阔值的特征词被选取。常用的特征选择方法有:信息增益、互信息、期望交叉摘,x"统计等。本文详细介绍后四种方法。
3.1信息增益(InformationGain)
信息增益法在机器学习领域应用比较广泛。它从信息论的角度出发,通过各特征值的取值不间来划分学习样本空间,然后根据所获得信息增益的多少对有效特征进行筛选。信息增益法计算得到的值表示了特征词在训练集上的分布,分布越集中则特征调越重要。评价公式如下:
IG(r)=
p(C,)logp(C)+p)≥p(C,I)+p(p(C,l)logp(C,l)(31)
其中,m为文本类的数目,p(C)表示任意一篇文本属于i类的概率,p(1)表示特征词:在文本集合中出现的概率,p(1)表示文本集合中非特征词:出现的概率,p(C,I)表示任意一篇包含t的文本属于 i类的概率,p(C,Ii)表示任意一篇不包含的文本属于i类的概率。
3.2互信息(MutualInformation)
互信息是信息论中的概念,作用是度量一个消息中两个信号之间的相互依赖程度。其缺点为容易受到单个词语边缘概率的影响。评价公式如下:
M()=Ep(G)og PeiC)
(32)
(o)d
上一章:超声波流量计的FPGA测试与仿真 下一章:PHP中多态的实现

相关文章

支持数据挖掘算法选择的数据集特征提取研究 基于Apriori算法的数据挖掘在移动医疗终端系统中的研究 入侵检测系统中的改进数据挖掘算法分析 医学图像拼接中特征点检测算法研究实现 加权挖掘算法在智慧 旅游景点推荐系统中的应用分析 数据挖掘算法与应用——在足球比赛角球进攻战术研究中的应用 自动指纹识别系统中关于指纹特征算法的研究 利用Tikhonov正则化算法进行光谱特征波长的选择及其参数优化