潜在语义索引 [隐含语义索引在吉林省农业知识问答系统中的应用]

发布时间：2019-02-23 04:41:12　影响了：人

　　摘要：为了解决现有农业知识问答系统功能及业务流程中存在的一些问题，将隐含语义索引技术应用于吉林省农业知识问答系统中。该技术可以增强或消减词语在文档中语义的影响力，使文档之间的语义关系更为明晰，在一定程度上实现了自然语言检索，消除了词语同义性和多义性所造成的影响，从而取得更好的检索效果。
　　关键词：隐含语义索引；吉林省；农业知识；问答系统
　　中图分类号：ＴＰ３９１文献标识码：Ａ文章编号：0439－８114（２０11）13－2740-03
　　
　　Application of Latent Semantic Index in Agricultural Knowledge Question Answering System of Jilin Province
　　
　　ＸＩＡＯＹａｎ－ｈｕａ，ＷＡＮＧＱｉｎｇ－ｌａｎ，ＢＩＹｅ－ｌｉ，ＷＡＮＦａ－ｒｅｎ
　　（ＡｇｒｉｃｕｌｔｕｒａｌＥｃｏｎｏｍｙａｎｄＩｎｆｏｒｍａｔｉｏｎＳｅｒｖｉｃｅＣｅｎｔｅｒ，ＪｉｌｉｎＡｃａｄｅｍｙｏｆＡｇｒｉｃｕｌｔｕｒａｌＳｃｉｅｎｃｅｓ，Ｃｈａｎｇｃｈｕｎ１３０124，Ｃｈｉｎａ）
　　
　　Ａｂｓｔｒａｃｔ：Ｔｈｅ lａｔｅｎｔ sｅｍａｎｔｉｃ iｎｄｅｘｔｅｃｈｎｏｌｏｇｙｗａｓａｐｐｌｉｅｄｔｏｓｏｌｖｅｓｏｍｅｐｒｏｂｌｅｍｓ with ｔｈｅｅｘｉｓｔｉｎｇｆｕｎｃｔｉｏｎａｎｄ in the ｐｒｏｆｅｓｓｉｏｎａｌｐｒｏｃｅｓｓｉｎａｇｒｉｃｕｌｔｕｒａｌｋｎｏｗｌｅｄｇｅｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇｓｙｓｔｅｍ．Ｔｈｉｓｔｅｃｈｎｏｌｏｇｙｃｏｕｌｄｅｎｈａｎｃｅｏｒｒｅｄｕｃｅｔｈｅｉｎｆｌｕｅｎｃｅｏｆｗｏｒｄｓｏｎｔｈｅｓｅｍａｎｔｉｃｉｎｔｈｅｄｏｃｕｍｅｎｔａｎｄｉｔａｌｓｏｃｏｕｌｄｍａｋｅｔｈｅｓｅｍａｎｔｉｃｒｅｌａｔｉｏｎｓｈｉｐｓｍｏｒｅｃｌｅａｒ，ｔｈｅｒｅｂｙｒｅａｌｉｚｅｄｔｈｅｎａｔｕｒａｌｌａｎｇｕａｇｅｓｅａｒｃｈｔｏａｃｅｒｔａｉｎｅｘｔｅｎｔ．Ｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅｆｒｏｍｉｄｅｎｔｉｔｙａｎｄｐｏｌｙｓｅｍａｎｔｉｃｓｗａｓｅｌｉｍｉｎａｔｅｄａｎｄｂｅｔｔｅｒｓｅａｒｃｈｒｅｓｕｌｔｓｏｂｔａｉｎｅｄ．
　　Ｋｅｙｗｏｒｄｓ：ｌａｔｅｎｔｓｅｍａｎｔｉｃｉｎｄｅｘ；Ｊｉｌｉｎｐｒｏｖｉｎｃｅ；ａｇｒｉｃｕｌｔｕｒａｌｋｎｏｗｌｅｄｇｅ；ｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇｓｙｓｔｅｍ
　　
　　农业作为基础产业，是社会信息化不可或缺的一部分，所以农业必然会受到以计算机网络技术、多媒体技术和智能技术为特征的信息化浪潮的洗礼。目前农业科技人员和农民经常借助各种搜索引擎进行农业信息搜索。由于搜索引擎不是为农业领域设计的，多数搜索的结果往往不能满足他们的需求，农业知识问答系统正是在这种情况下发展起来的。
　　从大量农业信息中迅速而准确地获取最需要的信息是农业知识问答系统发展的困难之一。如何使现有的吉林省农业信息资源得到充分有效地利用，提高吉林省农业信息化服务的质量，已经成为农业科研人员研究的一个热点。隐含语义索引（LSI）是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案，其检索结果的实际效果更接近于人的自然语言，在一定程度上提高了检索结果的相关性，目前已被逐渐地应用到图书馆、数据库和搜索引擎的算法当中。隐含语义索引通过对原文档库的词－文档所建立的矩阵的奇异值分解计算，进而取其前ｋ个最大的奇异值，然后用对应的奇异矢量构成一个新矩阵，用其近似地表示原来文档库的词－文档矩阵。因为新的矩阵消减了词和文档之间语义关系的模糊度，所以这种方法更有利于信息检索。
　　１隐含语义索引的基本原理
　　因为文本和词汇之间存在着一定的相关性，所以若干篇文本和若干个词汇由他们之间的相关性构成语义模型；使用数学的算法和计算机技术，分析此模型并对其进行计算和处理，保留文本与词汇间最主要的相关性，去除其他冗余、次要的影响因素，于是得到了优化后的模型；最终构成的语义结构和原始的文本、词汇的相关结构进行比较，规模要小很多，并且还保留了其中主要的相关性，用此模型挖掘文本和词汇的隐含关系；在即将进行的检索中，用该语义结构作为基础，统计出词汇与文本间的隐含相关度［１］。
　　在向量空间中，每个文档都可以表示成词的向量空间矢量Ｄｉ＝（ｗｉ１，ｗｉ２，…，ｗｉｍ）（Ｔ１，Ｔ２，…，Ｔｍ）Ｔ，这样每个词条也就可以表示为文档空间的矢量Ｔｊ＝（ｗ１ｊ，ｗ２ｊ，…，ｗｎｊ）（Ｄ１，Ｄ２，…，Ｄｎ）Ｔ，词条和词条之间的相似性用向量夹角余弦来计算。
　　在隐含语义索引算法中，一个文档库可以被表示成一个ｍ×ｎ的词-文档大矩阵Ａ。其中ｎ表示库中的文档数，ｍ表示库中包含的所有不同的词的个数。即矩阵Ａ的每一行对应一个不同的词，矩阵Ａ的每一列对应一个文档。Ａ表示为：
　　Ａ＝［ａｉｊ］，１≤ｉ≤ｍ；１≤ｊ≤ｎ
　　矩阵中的元素ａｉｊ是文档Ｄｊ中的特征项Ｔｉ出现的频度或其权重。实际应用中，因为词与文档的数量可能会很大，词在单个文档中出现又非常有限，所以Ａ一般是高阶的稀疏矩阵。
　　这时利用向量代数的相关知识证明得知，可以把矩阵Ａ分解成三个矩阵的乘积，即：
　　Ａ＝ＵΣＶＴ
　　式中，矩阵Σ表示对角线矩阵，矩阵Ａ的奇异值是对角线上的元素。矩阵Ｕ和Ｖ的列向量都是正交归一化的。Ｕ是ｍ×ｒ的“左奇异值向量矩阵”；Ｖ是ｒ×ｎ的“右奇异值向量矩阵”，ｒ是矩阵Ａ的秩，并且有：
　　Ｕ＝ＶＴＶ＝Ｉｎ（Ｉｎ为ｎ阶单位矩阵）
　　矩阵Ａ的分解过程［４］如图１所示。
　　前ｋ个列构成Ａ的近似矩阵Ａｋ，其秩为Ｋ。这样就可以得到一个新的近似分解矩阵Ａｋ：
　　Ａｋ＝Ｕｋ×Σｋ×ＶＴｋ
　　矩阵Ｕｋ与矩阵Ｖｋ的列向量都是正交的向量。所以我们就可以用Ａｋ近似地表示原词、文档矩阵Ａ，矩阵Ｕｋ和矩阵Ｖｋ中的行向量分别表示词和文档，在此分解方法的基础上，再进行农业知识相关的文档检索或其他各种文档处理。这就是基于隐含语义索引的吉林省农业知识问答系统的基本思想。
　　尽管隐含语义索引是用文档中包含的词来表示文档的语义内容，但是隐含语义索引算法中文档概念的可靠性并不能完全用文档中的词来表示。因为文本中词的多样性，在很大程度上掩盖了词和文档之间的关系，隐含语义索引则通过对原文档的向量矩阵的奇异值进行分解，取分解后的ｋ阶近似矩阵，这样做一是消减了原词、文档矩阵中所包含的“噪声”［２］，例如同义词，使词和文档之间的语义关系更加凸出；二是使得词、文档的向量空间维数大大减少，进而可以提高有关农业知识文档的检索效率。
　　２基于隐含语义索引的中文文本检索系统
　　本系统主要由抽取系统和问答系统两个模块组成。抽取系统是问答系统的后台支撑，主要是每天定时抽取大量关于农业技术的问答信息，对这些问题进行过滤并存入数据库，最终生成索引数据库。问答系统是解决用户问题的核心，主要有问题分析、语义计算、答案生成3个模块。问题分析模块主要是对用户提出的问题进行分析。将分析结果提交给语义计算模块、分词之后，经过计算权重，生成对应向量。答案生成模块主要是通过把问题向量映射到数据库中的备选问题组成的词－句子向量空间完成答案的选取。总体系统框架如图２所示。
本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文　　基于隐含语义索引的农业技术问答系统检索的主要步骤分为5个，即：
　　１）词、文档向量矩阵Ａ的建立。利用无词典分词算法，对库中的文本进行词条的切分和词频的统计，建立文档库的词、文档向量矩阵Ａ，并对其进行归一化处理［３］。
　　２）奇异值分解。对建立的矩阵Ａ按前面所述方法进行奇异值分解，得到一个矩阵Ｖｋ，矩阵Ｖｋ中的每一行对应库中的所有文档。
　　３）查询向量的投影。把查询向量投影到变换后得到的等价的ｋ阶词、文档矩阵中，即为矩阵Ｖｋ中的一行向量。
　　４）相似性计算和度量。利用向量距离公式或向量夹角余弦公式计算相似度，根据向量间的相似性度，查找与查询结果最相似的集合，按相似度的值从大到小排列，并将相似度大于某值的文档返回［４］。
　　５）反复查找，直到结果满意。根据查询结果的满意程度，如果不满意则用上一次的查询结果来改修正查询，重新查找最相似的文档，这种过程可以循环进行，直到满意为止。
　　２．１问题分析模块
　　问题分析模块的主要任务是分析出用户的意图。首先根据用户所提的问题（如：请问如何种植黄瓜？），去掉一些和礼貌用语有关的词，及一些语气词（如，请问、吗、吧等），分析出名词、副词、形容词等主关键词集合（如何、种植、黄瓜），同时还要进行同义词扩展，然后把分析出的关键词提交给语义计算模块。
　　２．２语义计算模块
　　语义计算模块是对问题进行权重计算，生成特征向量和进行语句相似度计算。权重计算与生成特征向量是语句相似度计算的基础［５］。语义计算模块主要是进行语句相似度计算。
　　２．３答案生成模块
　　答案生成模块根据相似度计算结果和用户提问句式，生成答案列表和选取答案。
　　采取的策略：首先根据用户所提问题判断其句式。句式确定之后，从相似度大于一定阈值的答案中选取句式最吻合的５个问题的答案作为用户所提问题的答案。
　　试验数据为数据库中的２０００个问题和其对应的答案，经过预处理生成２１２３×２０００词－句子矩阵，对隐含语义索引技术和常用的分类技术的准确率进行对比（图3），试验结果表明，前者要明显好于后者，这是因为隐含语义的模型在一定程度上减弱了或者排除了每个类中的噪声词汇。但隐含语义索引技术目前还不能处理文本的全面语义，这样在某些应用中的表现不如常用的分类算法，因此还需要对语义算法更深入地研究。对于整体文本分类而言，隐含语义索引技术克服了传统模型中的许多不足，在应用中已取得了很好的效果。
　　３小结
　　农业知识问答系统是一个综合的、复杂的系统，涉及到许多信息处理的技术问题。由于农业知识的复杂性和特殊性，以往的信息检索技术很难解决信息中的同义性和多义性问题。本文通过把新型的信息检索方法――ＬＳＩ引入到农业知识问答系统中，为农业知识问答系统检索技术提出一种新的思路及流程。试验证明该技术表现出明显的性能优势，有效地解决了噪声数据对分类带来的负影响，提高了问答系统解答问题的准确率。
　　
　　参考文献：
　　［１］戚涌，徐永红，刘凤玉．基于潜在语义标引的ＷＥＢ文档自动分类［Ｊ］．计算机工程与应用，２００４，４０（２２）：２８－３１．
　　［２］余正涛，樊孝忠，郭剑毅，等．基于潜在语义分析的汉语问答系统答案提取［Ｊ］．计算机学报，２００６，２９（１０）：１８９０－１８９２．
　　［３］周文，龚礼明，蒋岚．隐含语义检索及中文样本分析实例［Ｊ］．计算机应用，２００４，２４（Ｚ１）：２７３－２７６．
　　［４］魏保子，王儒敬．隐含语义索引在农业技术问答系统中的应用［Ｊ］．微电子学与计算机，２００８（７）：４８－５１．
　　［５］王春红，张敏．隐含语义索引模型的分析与研究［Ｊ］．计算机应用，２００７（５）：１２８３－１２８８．
　　
　　注：本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文
本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

上一篇：玉米19,kD醇溶蛋白启动子克隆与植物表达载体构建:启动子克隆

下一篇：【不同方法对水样中盐分总量检测的比较】盐分检测

猜你想看

茭白丽茭1号苗价格【茭白新品种“丽茭１号”等】(2019-02-24)
流感易发秋冬冬春 [冬春易发的猪病及防治] (2019-02-25)
中小企业财务管理存在的问题及对策 [网络会计在发展中存在的问题及解决对策] (2019-02-25)
素描画简单好看易画 [《计算机世界》第34期新闻素描] (2019-03-09)
[收购让ＩＢＭ和Ｃｏｇｎｏｓ双赢] 新疆双赢国际被收购(2019-03-01)
[麒麟远创ＢｕｓｉｎｅｓｓＷａｒｅ电信行业解决方案]骁龙660和麒麟955对比(2019-03-14)
[湖北省农业低碳发展制约因素的实证探析]日本低碳经济发展的主要制约因素有(2019-02-23)
[“湘益”牌茯砖茶真菌的分离及鉴定研究] 湘益茯砖茶(2019-02-24)
四季豆苗 [DCPTA浸种对四季豆苗期生长的影响] (2019-02-24)
反全球化:福音还是骗局?_全球化智库骗局(2019-02-27)

潜在语义索引 [隐含语义索引在吉林省农业知识问答系统中的应用]

上一篇：玉米19,kD醇溶蛋白启动子克隆与植物表达载体构建:启动子克隆

下一篇：【不同方法对水样中盐分总量检测的比较】盐分检测

猜你想看

最新文章

栽桑养蚕防中毒_栽桑养蚕新技术

常绿观果园林植物等|常见100园林植物大全

纳米陶瓷：开辟工程陶瓷新领域_纳米陶瓷

动车组维护与检修_GIS产品的维护与检修

信息化建设在高校工会工作中的运用:高校信息化建设

大倾角皮带机在百善矿654集运巷溜煤道的应用:皮带机最大

赢在坚持|作文赢在坚持

[白银市主要生态环境问题及对策]生态环境部官网

融会贯通融会贯通多学科知识,提高初中地理教学效率

阿尔卡特朗讯上海总部朗讯与阿尔卡特谈合并

相关文章

潜在语义索引 [隐含语义索引在吉林省农业知识问答系统中的应用]

上一篇：玉米19,kD醇溶蛋白启动子克隆与植物表达载体构建:启动子克隆

下一篇：【不同方法对水样中盐分总量检测的比较】 盐分检测

猜你想看

最新文章

相关文章

下一篇：【不同方法对水样中盐分总量检测的比较】盐分检测