在自然语言处置领域,处置海量文本文件的关键是提取用户最体贴的问题。无论是长文本照样短文本,我们都可以通过几个关键词来窥视整个文本的主题。同时,无论是基于文本的推荐照样基于文本的搜索,对文本关键字的依赖性也很大。关键词提取的准确性直接关系到推荐系统或搜索系统的最终效果。
因此,关键字提取是文本挖掘领域的一个主要组成部门。从文本中提取关键词有三种方式:监视、半监视和无监视。监视关键字提取算法是将关键字提取算法组织为两类问题来判断文档中的词或短语是否为关键字。由于这是一个分类问题,因此有需要提供符号的训练展望。训练语料库用于训练关键词提取模子。凭据该模子,对需要提取关键字的文档的关键字提取算法进行了半监视。
组织关键词提取模子只需要少量的训练数据,然后行使模子对新文本进行检查。关键字提取,手动筛选这些关键字,并将筛选后的关键字添加到培训集以重新培训模子。无监视的方式不需要手动符号语料库。一些方式被用来寻找文本中更主要的词作为关键字并提取关键字。监视文本关键字提取算法要求人工成本高,现有的文本关键字提取主要接纳无监视关键字提取,适用性强。
文本关键字提取的历程如下:无监视文本关键字提取流程图无监视关键字提取算法可分为三类:基于统计特征的关键字提取、基于词图模子的关键字提取和基于主题模子的关键字提取。基于统计特征的文本关键字提取算法基于统计特征的关键字提取算法基于统计特征的关键字提取算法是行使文档中的统计信息提取关键字。
一样平常情况下,文本经由预处置获得候选词集,然后通过特征值量化从候选词集中获得关键词。基于统计特征的关键词提取方式的关键是接纳何种特征值量化指标。
现在常用的方式有三种:1、基于词权的特征量化主要包罗部门语音、词频、反向文档频率、相对词频、词长等。2、基于词位的特征量化方式是基于差别位置的句子对文献的主要性差别的假设。通常,文章的前N个词、后N个词、开头、末端、题目和弁言都是有代表性的词。这些词可以把整个主题表达为关键词。3、基于词关联信息的特征量词的关联信息是指词与词、词与文献的关联水平,包罗互信息、命中值、贡献度、依赖度、tf-idf值等,这里有一些常用的特征值量化指标。部门语音分词和语法分析的效果。现有的关键词大多是名词或动名词。
一样平常来说,名词比言语的其他部门更能表达文章的主旨。然而,作为特征量化的指标,部门语音通常与其他指标连系使用。单词频率示意单词在文本中泛起的频率。一样平常来说,我们以为一个词在文本中泛起的频率越高,它就越有可能成为文章的焦点词。单词频率只是盘算文本中泛起的单词数。然而,仅依赖词频获得的关键词具有很大的不确定性。对于长文本,此方式将发生大量噪声。
(责任编辑:网络)

评论列表