当前位置:首页 > 发言稿 > [基于数据挖掘技术的农作物种植常见问题解答系统] 农作物种植
 

[基于数据挖掘技术的农作物种植常见问题解答系统] 农作物种植

发布时间:2019-06-28 04:04:32 影响了:

  摘要:该文介绍了分词算法与关联规则算法的相关理论,分析了数据仓库的设计过程,详细叙述了数据仓库的设计步骤以及感想。该系统是从对自然语言的分析来设计整个方案的,系统中包括了分词、权重计算、搜索最优答案和整理数据库等模块。其中分词算法采用了基于词典的双向分词算法;对权重的计算采用了TF-IDF算法;根据权重和关键词匹配搜索最优答案。该系统在准确性和智能性方面相对较高,并具有一定的参考价值。
  关键词:数据库;数据仓库;分词算法;权重
  中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)17-4036-03
  随着新农村建设的加速和农业科学化的发展,农民的知识水平不断提高,科学种植已经成为农业发展的需要。从大量数据中查询有关种植物病虫害的信息和相关策略就显得越来越重要了。而传统的农业科技杂志已无法满足这种需求。基于数据挖掘技术的农作物种植常见问题解答系统应运而生。
  利用现有的自然语言理解技术,改革现有的智能答疑系统模式。智能答疑系统通过对农民朋友所提问题的记录分析,可以统计出农作物普遍存在的问题,为农业技术人员发现问题、分析问题、解决问题提供切实可行的理论依据,成为农业增收的有效应用工具。在网络环境下的智能答疑系统采用了友好的自然语言接口,可以轻松自如地提问,及时解决农作物种植过程中遇到的难题,使远程帮助真正起到用户良师的作用,具有重大意义。
  1系统相关研究工作
  本系统是将文本挖掘技术应用到智能答疑系统(IQAS)中,利用分词,计算权重等技术分析问题和答案,再通过关键词匹配,查找到问题的最优答案。从而对农作物常见病虫害平台系统中的在线答疑历史数据进行整理分析,形成一个可用的数据仓库。数据仓库( Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non- Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库用于面向分析型数据处理,是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘作为数据仓库系统的信息访问部分的主体,是用户赖以从数据仓库提取信息、分析数据、实施决策的必经途径。利用数据挖掘技术中的文本挖掘技术、关联规则算法研究问题和答案的快速匹配问题,查找到问题的答案。由用户用自然语言提出问题,利用分词算法提取出特征词,然后计算特征词的权重,根据词频特征词的权重进行答案的查找。其相关步骤如下:
  第一,答疑系统中由农民朋友提出问题,农业技术人员和农民朋友均可以参与回答与讨论。所以问题与答案可能是一对一,也可能是一对多的。首先在数据库中建立一张表Table1,该表采用答疑系统论坛中的问题答案库,其中有所有参与问和答的记录,这是张杂乱无章的表。然后分析该数据库中的文档。
  第二,对Table1中的文档进行分词,统计词频,然后计算每个关键词的权重。
  采用正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法,对Table1中的文档进行分词。通过该种方法,可以使逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。运用统计方法计算关键词权重,即用文本的统计信息,主要是词频,来计算特征项权重。被广泛应用的权重计算公式是TF-IDF公式:
  第三,通过词频和关键词的权重,用关键词匹配的方法查找最优答案。然后table1再次从原始历史数据中整理问题答案库得出一张新表,该表即是问题与答案一一对应的表。这样就建立起基于答疑系统的数据仓库。数据仓库的设计是本系统的核心。
  最后,答疑系统的数据仓库实现。
  本系统设计实现上主要是研究分词算法和关联规则算法,将其应用于问题中关键词相关度分析,计算出与问题最匹配的答案,最后实现智能答疑。本系统的开发采用C++语言,数据库是Microsoft SQL Server数据库。
  基于上述,设计并实现了基于答疑系统的数据仓库。使输入问题可以立即得到答案,系统通过分析数据库中的问题与答案,首先分出关键词,然后通过词频的统计与权重的计算以及关键词的匹配,由系统自动返回答案。另一个创新是答案标准不再人为制定,而是通过词频、权重以及关联度来给予,最终得出最优答案。其中,对中文自动分词部分,研究并实现了对数据库文档的分词,和基于词典的双向分词方法,这种分词方法快速且准确率较高。在计算权重部分主要运用了特征项权重计算公式,并做了相应的改进使之更合理。
  从应用的角度看,本系统共分为四大部分:分词部分、权重计算部分、搜索最优答案部分和整理数据库部分。而就系统的体系结构而言,可分为两大部分:数据库的管理部分、数据库整理部分。数据库的管理部分即答案库的管理部分也是数据仓库的设计部分,首先运用文本挖掘分出关键词,然后通过权重计算找出数据库中权重最高的答案,并在数据仓库中找到对应的问题提取出对应的答案返回作为最优答案。这一部分是本系统的难点也是本系统的重点,是系统实现的关键。数据库整理部分,通过以上工作整理数据库使问题和答案一一对应。
  为了最终找到最优答案使得问题与答案一一对应本系统实现了如下主要模块:
  ①分词模块
  对数据库中的文档分析并进行分词,分出关键词,并计算出该词出现的频数。该模块是查找最优答案的首要工作。
  ②权重计算模块
  对分出的关键词加权,计算出该词在文档中的权重,即该词在文档中的分量。该模块是查找最优答案的关键工作。
  ③搜索最优答案模块
  通过分词和加权工作找到答案中权重最高的答案(即最优答案)使之与问题一一对应。
  ④整理数据库
  找到最优答案后将问题答案表中的其他答案(即非最优的答案)删除得到一个问题答案一一对应的表,实现数据仓库的设计。
  本系统总体流程图如图1所示。
  2本系统的相关设计实现
  本系统采用基于词典的双向的分词方法:首先从文档的开始查找纯汉字的字符串,这样就可以将其中不是汉字的字符跳过;然后对这些纯汉字的字符串进行正向分割和反向分割;分割的方法是与字典中的词相匹配。
  由首页进入分词与权重页面,首先点击分析按钮,对问题答案表中的文档进行分析,分析完成,状态栏将提示分析完成以及显示分析的文档数。然后点击分词按钮页面将显示分词结果。点击表格中的单元格,左边的列表框会显示该单元格所在行的所有记录,有几条记录即该词在问题答案表中出现的频数(如图3)。。由于关键词在文档中出现的频数越多其权重就越大,对于篇幅较长的文档出现该词的频数就有可能非常多,这样的计算显然不是很合理,所以要除以文档的长度,使得结果合理一些。
  系统完成分词后,点击计算权重按钮,当状态栏提示“计算已完成!请点击显示权重!”后,点击显示权重按钮页面将显示关键词的权重。点击表格中的单元格,左边的列表框会显示该单元格所在行的相应的内容(如图4)。图4
  在对文档进行分词和权重计算后,如果答案中的关键词与问题中相匹配的关键词多且权重比较大,那么确定该答案为最优答案。在搜索页面中,用户只需将问题的关键词输入,系统即可显示答案的ID和答案的内容(如图5)。
  3总结
  本系统经测试具有如下优势:1)中文自动分词
  本系统采用了基于词典的双向中文自动分词技术,能够对数据库的文本进行分析后快速准确的将文本中的关键词分出,并统计出该关键词的出现频数、所在的文档号以及所在的位置。
  2)计算权重
  经过分词后,本系统根据关键词出现的频数和所在位置,计算出该关键词的权重以确定该关键词在文档中的分量,为最优答案的查找奠定了坚实的基础。
  3)搜索最优答案
  经过分词和权重计算后,用户只需将问题的部分关键词输入即可搜索到答案和答案所在的文档号。
  4)整理数据库
  本系统通过整理数据库,可以将先前一个问题对应很多答案的数据库中的其他答案(非最优答案)去掉,从而整理出一个问题对应一个最优答案的数据库。
  参考文献:
  [1]赵成龙,薛欣.基于Web的智能答疑系统的设计与实现[J].计算机工程与科学,2005,27.
  [2]詹素青.基于WEB方式的自动答疑系统的设计[J].佛山科学技术学院学报,2004,9.
  [3]邹学玉,易国华.基于Web数据库的网络答疑系统的设计[J].长江大学学报,2004,12.
  [4]楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,2.
  [5] R. Agrawal,T. Imielinski,A.Swami,.Mining association rules between sets of items in large databases[J].In Proceedings of the ACM SIG? MOD International Conference on the Management of Data, May 1993: 207-216.
  [6] U.M. Fayyad, G. Piatetsky-Shapiro,and P. Smyth. From data mining to knowledge discovery: an overview [J].In Advances in Knowledge Discover and Data Mining, AAAI/MIT Press, pp.1-30.

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3