现代新兴商业模式的电子商务的蓬勃发展,使得Internet上的资源和服务更加丰富多彩,这些丰富的资源和服务每天都会产生许多新的、蕴涵着大量重要信息的海量数据,这些数据往往是异构的、不确定性的和非结构化的,其复杂程度已远远超出了人类目前己有的分析和理解能力。因此,研究有效利用这些复杂资源的新技术,数据挖掘具有重要的现实意义。就信息处理而言,数据挖掘是致力于数据分析和理解数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。
本文在对分布式数据挖掘、Web服务及Agent相关技术进行了分析的基础上,为解决电子商务环境中分布式数据挖掘的核心问题,从关键算法和架构两个方面进行了深入研究。
针对k 最近邻搜索算法存在的问题,提出了电子商务环境中一种自适应的基于P2P的 最近邻搜索算法P2PAKNNS。探讨了度量空间、相似性查询和GHT*规则,自定义了高维数据的相似度函数HDSF(X,Y),论述了GHT*中插入算法及范围查找算法和搜索算法。在此基础上,具体给出了P2PAKNNS算法的实现方法,并通过实验,验证了其正确性。
同时本文对DENCLUE算法进行了研究,为使其适合电子商务环境、解决其存在问题,结合P2PAKNNS算法的优点,提出了电子商务环境中基于距离和密度的无监督聚类算法KNDC。论述了模糊簇的划分及参数 ,讨论了参数 和 的设置,给出了KNDC算法的具体实现方法,并予以验证。
本文还针对电子商务环境中分布式数据挖掘的关联规则,在研究Apriori关联规则算法、多重最小支持度Apriori算法、相关支持度Apriori算法RSAA、平均项目集合分割法的基础上,改进了阈值的制定方法;为提高挖掘有价值的稀有数据的效率和精确度,根据RSAA和基于无向项集图算法BOUIGA提出了RSAA-BOUIGA算法,分析了其正确性。
在此基础上,结合业界和学术界对Web服务和移动Agent的研究成果,将Web服务和Agent最新技术引入了电子商务环境中分布式数据挖掘,提出了电子商务环境下基于Web服务和移动Agent技术的数据挖掘架构BWADM,并论述了组合服务规范与组合服务的执行,具体阈述了此架构的数据预处理组件、算法管理组件、控制中心组件、算法库组件和模型表示组件。
然后建立了BWADM原型,结合Web服务技术,给出了基于 服务的数据挖掘系统逻辑结构,设计并实现了该系统,验证了BWADM的合理性和上述算法在效率、精确度等方面的优越性。
最后分析并指出了目前电子商务推荐系统存在的问题,并将电子商务环境中分布式数据挖掘技术应用到推荐系统中。为提高协同过滤推荐效率和精确度,根据P2PAKNNS提出了基于P2PAKNNS的协同过滤推荐算法,并根据KNDC提出了基于KNDC的协同过滤推荐算法,分别给出了这两个算法的具体实现方法,并予以验证。在此基础上,为解决目前电子商务推荐系统实时性和可扩展性不足、推荐工具种类繁多却单一、推荐结果解释性差等问题,将BWADM应用到电子商务推荐系统中,研究了基于隐式评分的推荐系统,并设计和实现了基于BWADM的电子商务推荐系统原型系统BDBRS,验证了其正确性和上述推荐算法在效率、精确度等方面的优越性。
还没人写过短评呢