在线零售站点的自适应和商业智能的发现

1 引言

电子商务已经被称为是Internet最重要的应用之一www正以其简单易用性熹得越来越多的用户,为用户和商家提供了双向交流、”虚拟“交易的理想空间在电子商务环境下一个联机零售商在Web上开展电子商务的业务模型如图户二。其中市场数据存储商品信息和用户的交易信息;Web结构数据存储Web页和Web的结构。服务数据存储访问日志。

一个标准的在线零售网站的分类设计结构:每一个节点表示一个页面。N节点表示导航页或分类页;C节点表示内容页或购买贞。网站的结构是介于树形和网状层次结构之间的一种结构。网站的设计者会尽量考虑到达一个购买页存在多个路径;而且从物品的分类结构匕说。很多物品属于多个类,如电子书。既属于书籍类又属于电子产品规模越大的站点。其结构越复杂。

开展在线零售业务的一个主要向题就是;用户面对厂家提供的大量产品信息,不知如何有效提取;而厂家面对大量的用户,不知他们的兴趣和要求所在,因而不知如何调整其服务方式和产品结构:

1.全体用户对零售商品的兴趣不一致。对物品的兴趣存在着一个概率分布,即全体用户对某些物品的兴趣要远远大于另一些物品。但Weh站点Web页面结构的分类层次设汁必须严格遵循商品的分类结构,因为如果不是这样,一般用户就无法访向。于是这两者之间就存在一种矛盾这种矛盾所导致的结果是大量用户不得不浏览许多不相关的页面,进人Web站点的很多层次最终才能找到自己所需要的商品。解决这个问题的一种思路是将图1上的导航页(N页)变成导航内容页(NC页)。这样用户就可以在N页上直接购买自己需要的商品。

2. 许多用户购买的物品类似于啤酒和尿布这样的物品—属于数据挖掘中的经典问题,即在页面结构分类上两者相距很远。但很多顾客会同时购买干是这些用户就不得不反复进入退出多个Web页,来完成购买对于这样具有关联购买的物品集,要做的就是如何自动发现关联物品集。并且自动

建立包含它们的导航内容页,以帮助用户访问。

所以需要建立一个模型和相应的算法在各导航页上标注购买物品快捷清单。即经过算法处理后,N页要自动变成NC页,即导航助买页。原有的N页之问的导航关系不被破坏。NC页将满足大部分用户的需求,使他们不需访问过多的层次或尽量不需绕路而进行购买。

解决这个问题的方法是根据在线零售站点的Web访问到推荐点通过关联规则发现算法从用户的交易数据中,发现关联购买集合;在推荐点上标注这些商品及其关联购买集合;当处理完所有的关联购买集合后,通过竟争来决定出现在导肮页面上的物品集,最终将导航页合理地变成导航购买页。这样全体用户对这样的站点进行访问,他们的总的访问遍历教就会减小于是通过这样的过程卜这个站点就可以自动根据用户的访向购买情况,进行自适应。

文中首次提出将数据挖掘的技术应用于电子商务的环境下。以发现市场智能。挖拥的对象不仅包括日志、Web页面,也包括市场数据。文中还给出了在电子商务环境下挖拥的一个总的框架。但他们的方法依然局限在传统的挖掘手段。本文所述方法是建立在其基础之上,更好地发现并应用了市场智能。不仅应用传统的挖掘手段(如关联规则发现算法)而且新定义和建立了自适应模型进行Web站点结构的有限智能调整,即使站点能够根据群体用户的访问而自适应。

文中首次给出Web挖掘的定义,并且给出一个关于Web访向信息挖掘的系统WEBMINER。文中提到的思路是通过对Web站点的日志进行处理[ss7将数据组织成传统的数据挖掘方法能够处理的事务数据形式,然后利用传统的数据挖掘方法(如传统的关联规则发现算法)进行处理。其得出的挖掘结果也是传统的数据挖掘结果,并没有根据挖掘的结果调整站点的组织结构。找们的方法是在这种方法的墓础上。不但得到挖掘的结果而且把挖掘的结果用于改进在线零售站点的组织结构,以利于群体用户的访问。

Web Log Miner方法用OLAP技术来实现对Web日志数据的预测、分类、时间序列分析。其分析的结果没有用于Web站点的重新设计,而我们的方法是要主要用于站点的自动重新设计,且不破坏原有的分类结构,即自适应在文中,这些方法的目的是自动定制不同的用户访问界面。其特点是:1)W eb站点或代理动态地把一些增强的当前可视的Web页面给用户即定制个性化的页面;2)页面上的信息针对的是基于某种模型而得到的特定的某一个,或某一类用户;3)该棋型基于该用户或该类用户以前的访问方式。对比来说,找们的方法1)是一种优化方法;2)周期性、离线地进行挖掘;3)挖掘的对象是全体用户的交互行为,挖掘的是全体用户的共同访问购买兴趣,挖掘的结果面向全体用户;

4)不需要特定的某一个或某一类用户的信息。文中用聚类方法实现Web站点对外部访问的自适应。它通过PageGather聚类方法的结果:索引页,来帮助用户进行访间。这种方法使用聚类挖掘,在一个Web站点上寻找相关页面的集合。这种相关页面集合是根据总休用户的相关访问来决定的。采用的手段是创立相似矩阵,矩阵的元素是根据访间日志所得出的页面之间的共同被访问的频度。然后在这个矩阵中寻找每一个聚类,根据每一个聚类创立一个索引页。这种方法自适应的基本元素是侮个Web页面,而且算法需要建立大量的索引页;而在本文方法中,自适应的基本元素是商品。方法本身不破坏Web站点原有的分类结构,不会形成附加的索引页。被提升的内容,自然而然地出现在它们应该出现的地方。

在零售业务中,客户对商品的兴趣和对商品的购买是两个不同的概念。在传统的零售业务中,只能记录对商品的购买信息,而无法直接得到用户对商品的兴趣信息。而对比传统的零售业务在在线零售站点中,用户访问信息可以记录更为详细的客户对商品的访问,因而通过挖掘可以得到用户对商品的兴趣知识一旦服务方了解到顾客的兴趣知识和购买知识,那么就可以采用相应的商业促销手段把潜在的用户转变为实际的用户。本文给出一些关于商业智能的定义以帮助服务方发现用户的浏览兴趣。并给出相应的OLAP方法以发现这些商业智能以帮助服务方更好地开展商业服务。和文中所述方法相比本文方法将用户的访问兴趣与用户的购买行为分开。利用OLAP技术进行挖掘。

2 数据准备

2.1 挖掘对象

挖掘的对象存在于图1所示的后台数据存储层之中。具体分为:

1)用户的访问日志(在图1的服务数据中)。服务器上的日志格式遵循W3C标准;2)用户的交易纪录即传统的交易事务数据(在图1的市场数据中)。交易数据记录用户对物品的购买信息。

2.2 生成用户访问任务

进行挖掘时。首先要将一段时间用户的访向日志组织成用户访问事务数据。设L为用户访问日志,其中的一个项包括用户的IP地址l.巾,用户的标识符1.ui d.被存取页的URL地址1.ur l.以及存取访问的时间time,

这里C是一个固定的时间窗。对Log进行处理,找到每一个事务,然后就可以对这些事务进行关联规则发现。寻找访问事务的算法为

1.对日志进行预处理。

2.根据睡一个访问者IF,划分日志即在Log中找到每一个访问者的访问记录集。

3.对访问者的访间记录集。根据c进行分割。找到每一个访问者的每一次访问记录集,这时,每一个访问者的每一次访同记录集就构成r一个访问事务

4.最终按时间排序的所有访问事务构成我们进行挖掘的基础。

处理完日志后我们就有了用户访问事务集T;此时,对了进行处理,把用户每次发生购买行为和由此而进行的路径访间提取出来,形成用户访间购买事务集其中每一条记录不仅包括每一个用户的交易记录而且也包括该用户发生一次购买时,他对Web站点的访问记录即他的存取路径3 在线。售站点的自适应模型

在线零售自适应模型荃于如下四种基本元素

1)物品为用户购买的目标。

2)页面页面本身分为导航页、购买页、导航购买页每个页面,或导航购买页面包含一些物品一个物品可能出现在多个购买页面,或导航购买页面页面中。

3)页面之间的层次关系:这种层次关系反映出用户购买一个物品至少需要访问的页面的个数。如果一个常被购买的

物品处于较低的层次。那么需要将其提升以减少这些用户的访间层次数。

4)用户的访问通过对用户访问状况的挖捆。可以得到群体用户购买一个物品时所通过的每一个页面的次数4 系统总的处理框架

整个系统按图4所示结构进行处理在一个T时间段内,经过群体用户的访问,会得到新的挖掘对象,然后执行如下处理过程:

1)数据准备:根据用户访问记录和用户交易记录得到用户访问购买事务集TP,

2)关联规则发现:在TP中寻找关联物品集,

3)建立自适应模型:根据用户的访问购买事务集TP和原有站点的拓扑结构在每一个节点4,

4)生成新的导航购买页在每个节点上根据放置物品集和关联物品集以及原有页面的拓扑结构生成新的导航购买页。

3 了结论以及将来的工作

开展在线零售业务存在的问题是群体用户必须浏览许多不相关的页面。才能最终找到自己所需要的商品。为了解决该问题,本文建立一个在线零售站点的自适应模塑。在在线零售站点中,服务方需要了解用户的浏览兴趣以把潜在的用户转变为实际的用户。本文给出相应的利用OLAP发现商业智能的方法,以帮助服务方更好地开展有针对性的服务。

本文所述的自适应方法本质上是Web访间信息挖掘中(WebUsageMlning)的一种推荐方法,即根据群体用户对在线零售电子商务站点的访向,在We卜站点上推荐根据对以前群体用户的访问兴趣挖掘而得到的知识,以加速当前群体用户对站点的访问效率。在该方法中,建立模型的训练过程较为简单。相应的各个公式比较容易计算。该工作朝着建立完全自适应的Web站点作出了贡献:

1)分析了在线零售站点,用户访问时存在的冗余访问问题并给出了解决这种间题的办法,即建立网站的自适应模

2)在校型中,对频繁被购买商品通过放置策略和后退策略找到推荐点,通过关联规则发现算法发现关联购买集合;在推荐点上标注这些商品及其关联购买集合;最终将导肮页合理地变成导航购买页即站点可以自动根据群体用户的访问购买情况进行自适应。

3)在模型中,关联规则发现算法被合理地结合起来,可以发现并且解决在在线零售电子商务站点上依然存在的啤酒和尿布的问题。而且利用Web站点的优点,可以更容易地解决这个向题

4)该方法完全是自动的,不需要人工的干预。

在本文所述商业智能发现方法中。可以发现在传统的零售业务中,无法直接得到用户对商品的兴趣信息所表征的兴趣知识。那么结合传统的晌买知识的发现一旦服务方了解这些知识,那么就可以采用相应的商业促梢手段把潜在的用户转变为实际的用户。本文给出一些关于商业智能的定义以帮助服务方发现用户的浏览兴趣。并给出相应的OLAP方法以发现这些商业智能。帮助服务方更好地开展商业服务。

我们进一步的工作将不仅是web访问信息挖掘中的推荐方法而且是预侧方法。通过将这两种方法结合起来。我们不但能够在Web站点上推荐找们所发现的用户的兴趣,而且也将能够预侧用户的兴趣。结构、群体用户的访问日志和群体用户的交易记录,建立网站的自适应模型。在模型中。对频繁被购买商品通过搜索算法找。