全书缺最后两章

mhsj (活着不是目的，好好活着才是。)

章节名：全书缺最后两章
2012-12-09 08:59:36
第1章  太阳底下没有新事物了吗
     网络可以改变企业提供商品和服务的方式。对于买卖双方来说，对历史数据的数据挖掘可以更为深入的了解供应、需求和价格机制——能够明确何时提供，什么商品，已经什么样的质量来进行交易，以优化他们的交易。

     市场意味着什么：
          它可以产生商品；
          它可以将商品分发给潜在的客户；
          它使得人们可以为商品付费；
          将会有人愿意并且能够支付商品的费用；
          商品完全是定好价格和定好位的。

     数据挖掘有能力使一个好企业更好，并能够使企业关注他们最重要的资产：客户。

     数据挖掘的角色就是在和客户的联系中加入智能——并且通过调节人的智能来更精确的做到这一点。

     在市场运作中有两个部分需要使用数据挖掘。一是通过数据分析来找到匹配模式；二是通过设计模型来理解、推行该模式。在网络中，第二部分已经极大地发展起来，这给予了网站建设实时改变的机会。

     成功的数据挖掘主要是在于加深对商业规则和数据来源质量的了解，而不是具体的算法。

     
第2章  Web数据挖掘的方法
     Web数据挖掘：结构挖掘、应用挖掘、内容挖掘

          结构挖掘使用来提取网络的拓扑信息的——网页之间的链接信息。
          应用挖掘使用来提取关于客户如何运用浏览器浏览和使用这些链接的信息。
          内容挖掘使用了提取文字、图片或其他组成网页内容成分的信息。（搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容）

     结构挖掘的原材料是一套将文档联系起来的超级链接。
     内容挖掘的原材料由那些存储于数以百万的文件中的文本组成。

     对结构挖掘的理想的表达方式是用图形的方式（实际上是有向图）。这种理想的图可以映射整个网络中链接所有文档的全部链接。
     内容挖掘的理想表达方式是一个索引。

     以纯粹的形式来说，内容挖掘并不需要文档间链接的相关知识，而结构挖掘也不需要那些文档的具体消息。

     应用挖掘主要集中于客户的行为，特别是随着时间的变化。应用挖掘的理想的数据表现形式，他可以是一个客户配置的知识库，并且可以不断的更新网络上每一个客户的配置。

     建立理想的客户的信息是分散在各个网络日志和数据库中。因此，应用挖掘描述只能限定于描述访问者对于特定的站点的访问情况。

     在全球额级别上，结构挖掘可以告诉我们一些站点的受欢迎程度和它同其他站点的距离（通过跳转次数来判定）。深入一步，我们可以通过查看一个单独站点的网页的链接情况及相互连接的情况来学习其内部结构。

     数据挖掘中关于寻找图和网络的结构模型的一个分支成为链接分析。

     一个链接到许多权威站点的站点叫做中枢；被许多中枢链接的站点叫做权威。这两个概念放在一起可以辨别出权威和大众化之间的区别。

     一个寻找权威的好的结构化的方法就是，用其他的站点到该站点的链接数来将它们分级。不适用指向它们的链接的总数，而是用指向它们的标题相关的中枢的数量来分级。

     使用结构挖掘的搜索是以普通的基于文本的搜索开始的。

     Kleinberg算法的一个关键特征：它并不会简单地依靠通过内容挖掘得到的页面，并试图将它们分级；它用它们来建立一个更大的文档的集合，这些文档要么指向位于根的文档，要么被位于根的文档指向它。这个更大的集合包含了非常多的全局结构——可以通过挖掘这些结构，用来由那些建立文档的人认为哪些文档是最权威的。

     Kleinberg的识别权威来源算法有三个步骤： 创建根设置；鉴别候选；为中枢和权威分级。

     【持续度】是被用来测量浏览者在特定的网页或是站点上停留的时间的物理量。

     通过比较从入口导航页到目标网页所要求的点击数和浏览者平均的点击数，会得到一下关于怎样设计好的网络站点和怎样链接网页的建议。

     如果没有应用数据的配合，一个网站的静态结构是没有很大用处的。

     使用模式可以从多个层次检测和挖掘到，从单个客户在一次对话中的一系列的单击到跨越了几个月或数年的客户群的购买模式中。通常，长期以来收集的信息可以组成一个特性文件，以此提供当前客户的快照。这些特性文件可以被用来产生建议和个性化服务。

     用于Web挖掘的有效的最低级的数据就是点击流——这一系列的由一个站点的网络服务器来接受的网页请求。

     点击流的分析始于网络日志。点击流的定义是一个网站浏览者通过点击链接所明确要求的一系列文件。

     在未使用网络注册资料了解客户详细资料之前，还有许多过滤和整理的工作要做——
     过滤：一旦要收集源数据，首要的步骤是过滤出不想要的记录，为分析做准备。许多被记录的点击信息要求的图像传输仅是超文本标记语言标准玩野的一个分支。

     反蜘蛛化：一些反蜘蛛过程就是通过在服务器日志的代理域中简单地识别蜘蛛的名字来实现的。一旦网页被卷入对话，进一步的反蜘蛛过程就能通过蜘蛛的特有的行为来识别它。

     客户验证：识别出那些同一个客户在一次浏览中为了建立会话而发出的请求；另一个层次是识别在多次站点浏览中的同一客户，使我们能够分析客户在数天，数月或是数年的行为。

     最好的方法是让客户确定他们提供用户名和密码才能进入网络站点。但是，事实上大多数的人都是用匿名在网络冲浪的，这就迫使我们运用各种各样不完善的策略来判断两个网页的申请是由同一个客户做的。

     在一个会话的页面请求中，是很难分辨出相同客户的。通过时间识别客户的行为甚至更难，处理这件事情的唯一的好办法是通过客户注册系统，但那要靠客户的合作。在没有这种系统的情况下，许多网站尝试通过Cookies来识别回来的浏览者。

     会话：是同一个人在一次访问期间请求一系列网页显示决定的过程，它们反映了一个访问者对网站浏览的理解。

     任何一个会话的方法都是建立在没有办法确定访问者多长时间在浏览最后一页的问题上。另一个与会话有关的明显的问题涉及到有密切关系的网站。

     路径补全：有关影响划分和任何基于网络日志的路径分析的一个问题是许多页面请求并没有被记录在服务器日志中，其主要的原因是缓存。

     假定在B和C之间是没有链接的，我们能够推断出中间在A停留过。这种填入丢失的步骤的过程叫路径补全。

以上描述的智能过滤、反蜘蛛、结构化、客户鉴别和路径补全技术的应用都只是建立会话日志，这个会话日志只是从URL的角度。

     要得到一个网站浏览者的全面了解，必须要求从应用服务器上得到的数据是完整的点击流数据。

     通常只在一个网站挖掘使用数据的原因在于要提高这个网站的可用性。这样分析的第一部是手机客户的使用途径。每个客户的会话都是一系列的网页要求。在对网站访问时，页面访问的顺序非常重要，以至于我们要把这个顺序作为一个整体来研究。这样的会话可以依照不同情况分为不同的簇。这些簇代表了不同的客户。

     HTML只是从文档显示的方式这一角度出发来描述文件的标准；XML是一个扩展的标准，它可以让使用者通过约定的标记来表达语义上的信息。

     数据挖掘在信息检索的困难在于创造元数据去完成查询，因为现有的“内容挖掘”都是“文本挖掘”。

     研究者可以从两个方面来判断该查询的有效性：“召回（回答了‘在所有正确的网页中，返回了多少’的问题）”和“精度（回答了‘在返回的网页中，正确的标题的比例是多少’的问题）”。

     一个搜索引擎对任何一个请求返回所有的网页可以说有了很高的“召回”，但是只有很低的“精度”；反之，只返回一个正确主题网页的搜索引擎可以说有着很高的“精度”但“召回”很低。“召回”和“精度”，哪个更重要？要看查询的性质。一些问题可以在查找到的一个网页里轻易的回答，有些则要参照很多网页。

     在内容挖掘中，分类的任务通常精简成为网页分配关键字。一个有用的内容分类是决定文档以什么语言写成。语言信息可以被用来限制搜索结果，或是以客户可以读懂的语言返回结果。

     从非结构化数据中创建结构化数据的过程叫做特征抽取。

     结构挖掘是为提取信息而对网站的链接进行分析的过程。对单一网站的局部结构的分析，对于理解此网站的创办目的和识别可能的设计问题有帮助。对全局结构的分析是一种将一个网站分解成多个紧密联系的子网站的途径。运用全局结构挖掘，有可能把网页归类为中枢和权威。

     
第3章 在线销售：销售用卡车交付的商品
     EDI（电子数据交换）在供应商和零售商之间提供电子通信连接。它首次实现了一个给零售商提供管理和补充库存的自动系统。

     目录销售业一直在用一种叫RFM（近期Recency，频率Frequency，货币价值Monetary Value）的方法，为目录邮寄业识别客户。这是一种基于单元的方法论，其中，客户群被划分为以隔多长时间进行一次购买，购买频率如何，以及花多少钱等因素为基础的单元。

     市场部门在做市场研究的办法：座谈小组，市场调查，市场测试。

     有效结合客户随时间推移而变化的行为的能力是在线世界里拥有的一个关键的新特性。这个能力要求收集和分析随时间推移的信息。

     商品推荐方案：提供最优的商品；基于商品和客户集的推荐（关于推荐的一个问题是交互的实时性。推荐需要很快做出，因为支付的任何延迟将增加限制购物车的数量。因此，绝大多数这些推荐的工作需要离线进行，从而使得交互的工作量保持最小）；以客户为中心的推荐（用来决定推荐的商品的方法包括：基于以往购物记录的规则；基于以往浏览记录的规则；下次最佳提议可预见模型；特殊商品的目录表）；

     《数据仓库工具箱》

     网络挖掘环境是较大的电子商务结构里的一个模块。由于各种客户和交易数据中心给挖掘模块提供数据，而且挖掘的结果也应以模型评价、越区销售、向上销售规则等形式提供给其他模块，所以这一挖掘环境必须要集成到较大的电子商务结构里。

     电子商务网站的一个普遍的需求是需要支持许多不同的商务活动。这些不同性能需求，不同的数据组织方式，不同的信息声明方式，以及各种客户不同的交互方式。不同任务要用不同模块来支持，其中每个模块才去最合适的格式维护它的数据，同时和其他模块共享元数据。

     商务活动包括：
          广告促销（广告促销是和商品本身有关的活动。支持广告促销活动所需要的数据反映了商品组织的方式）；
          市场交易（在交易里最有用的数据通常位于以客户为单位的交易数据中心）；
          报表和分析（报表和分析为商业目的将广告促销和市场交易数据结合起来）；
          数据挖掘（数据挖掘通过对历史数据的分析来找到可以用来预测将来行为的模式。数据挖掘包括预测模型、自动聚类分段和规则探索。）
          客户交互（客户交互不仅是绝大多数行为数据<客户所看到的，客户所寻找的，客户所购买的>的来源，而是数据挖掘所产生规则和得分的目标。客户交货系统是网站和客户的接口。进行数据挖掘时，可以产生用以指导后续交互的规则。）
          着5个活动互相重叠，互相影响并依赖于共享信息。

     
第4章  数字销售：销售用以太网分发的商品
     Napster模型：集中式的信息收集和分布式的传输方式。
     
     Web数据挖掘最重要的应用之一是提供建议。
     
     合作过滤是一项通过一组相似喜好的人的评价来寻找音乐、书籍、酒，或其他的任何符合一个人的现在的偏好的商品的技术。这一分支也被称作社会信息过滤。

     使用自动合作过滤系统为新客户提供建议有三个步骤：
          通过让新客户对电影、歌曲、餐厅等项目进行选择，建立一个客户档案；<合作过滤的一个困难实在可能有用的领域，相对任一人可能经历或愿意评价的，具有更多要评价的商品。>
          使用相似方法来比较新的客户和别的客户的档案；<最明显的方法是把档案矢量当成几何点，然后计算它们之间的欧几里得距离>
          对新的客户没有列出的商品，使用具有相似档案的客户的评价来预测新的客户会对这些商品做出的评价；<方法是用分量与距离的倒数的比例座椅分量平均>

     合作过滤对一个没人看过和评价过的新类型的节目没有用。但内容过滤可以基于节目向导中列出的新节目的属性做出推荐。另一方面，基于内容的过滤不能给出新的或出奇的建议，或处理新类型的影片。然而合作过滤可以做的很好。
     
第5章：  吸引广告客户的眼光
     广告就是市场信息向尚未关注该信息的客户的传播——可以以任何形式。一个企业支持多种类型的业务，每个业务的目标和数据需求都不相同。

     业务类型有：
          广告商；
               广告商通过向广告客户出售空间或者时间来魔球利益。为了向广告客户出售广告位，他们必须要通过说明他们可以向合适数量的人们传送合适的信息来说服广告客户。
               按照惯例，广告商往往关注某一类关注，并全力吸引这一类观众。Web改善了这个模型，因为它使得广告商不仅可以跟踪一个杂志的周发行量或者一个驾驶时间广播节目的大概听众数目，而且可以跟踪哪些广告传播到哪些人。Web还能提供个性化信息，包括关于个人的广告内容。
          广告客户；
               广告客户有很多方式可以帮助他们把商品信息传递给客户，所有这些都可以使信息传递给很多人，但是广告客户却无法知道究竟谁看到了这些信息。网络广告的特有吸引力在于它提供了通过广告直接和广告阅读者交互的机会，已经个人制作适合广告的机会。
          广告经纪人；
               广告经纪人在他们的网络收入了很多网站，因而为广告商提供了大量弹广告的同时可以为广告客户提供很大范围的可能位置。
               因特网广告经纪人比起非网站的同行来说优势在于，他们可以实时的度量广告效应。在Web上，广告空间的定价可以实时做出并且依据性能定价。
               广告客户可以指出他们要为每个看到广告的人付费多少，或者为每个点击广告的人付费多少，或者每个看到广告并点击它购买一些产品的人付费多少。
          广告创意人；
               对Web渠道适应最慢的就是广告创意人。

     因特网的空间和时间等价物就是帧和窗口。网页设计者和广告创意者可以选择成为交互式市场单元（IMUs）的一组标准广告大小进行设计。布局已经被证明是可是媒体效果的重要决定因素。

     当为一个网页设计布局的时候，网页设计者有三种选择为广告保留空间：     
          使用常规HTML帧，从而当客户在其他帧中滚动内容时广告能够保持固定大小；<当使用帧的时候，广告商的日志文件中为不同的帧建立不同的条目，这使得人们更容易分辨出哪些内容和广告已经被看过。>     
          使用新的内嵌帧，广告可以随着它包围的文本一起滚动；
          使用一个单独的窗口。

     内容服务器存储了会话级的Cookies来帮助它跟踪客户本次访问期间的动作，而广告服务器则使用永久性Cookies来辨认来自一个浏览器的重复请求而不管客户访问的是哪个站点。

     Cookie中并非存储各种信息，利用cookie作为你的Web访问数据库中主要域的唯一识别符。

     通常，良好地应用设计推荐使用一个非常简单的cookie，在共同数据库表中提供唯一键将cookie映射到唯一的访问者。由于数据可以提供更有效的管理，所有其他的信息都可以存储在数据库中而不是存储在满是数据的cookie文件中。

     活动的目标影响网络广告的规划部署。可能的目标有几个：
          提高品牌关注度或者提高企业形象；
          在特定时间鼓励人们采取特定的行动；
          鼓励人们在离线世界中进行选购或者采取行动；
          驱使访问者去某一个广告更多的Web站点。
          驱使访问者去一个Web站点进行选购
          
     点击到达率是比浏览数更好的衡量广告效果的度量标准。

     购买者和访问者的比率成为转换率。不同的广告有不同得到转换率，相同的广告在有些站点可能更有效。在有些情况下，点击到达率和转换率可能成反比。

     点击到达率和转换率是电子商务网站用于跟踪广告效应的首要指标，但不是唯一指标。访问者从开始看到广告到最后购买的整个过程尽可能的被跟踪。在整个过程中的每一个步骤，可能会漏掉一些潜在的客户。每一步骤中的客户幸存率就称作微转换率。

     如何衡量客户的质量？广告商很愿意为“更好”的客户支出更多的费用，这里的“更好”意味着更多的人试图更多的访问广告商站点。这种衡量称之为广告适当性。

     衡量读者的适宜度的一种方法是衡量这个读者和所有读者共性的吻合程度。算出哥特和特定描述的差距是数据挖掘的共同的任务。
     
     
第6章  市场：连接着销售者和客户
      经济是一个整体，它会因为鼓励竞争、工业标准及减少进入屏障或者加强信息化而受益。

     在某种程度上，在线市场把商业引向了理想化竞争的方向，整个经济体系都会受益。许多行业没有为了整个社会收益而采用新的技术或业务模式。他们这样做是为了增强自身的优势，这个优势产生于一个公司却损害了整个市场，结果导致了反信任规则。

     现今市场指的是一个实际货物以现金方式销售的市场。现今市场和期货市场、买卖市场一样，都是以喊叫方式运作。现金交易通过为客户和销售者提供价格和商品信息及对交易的货物提供品质保证改善了市场效率。

     在交易进行之前的某个时候，客户和销售者们可以达成一个将来发货的现金价格。该协议被称作期货合同，期货是其实现。大多数的期货合同买卖是用来减少现今市场价格波动的避险行为。

     期货与期货合同是不同的。期货合同是在买卖双方直接建立的。期货合同之所以被认为“现金合同”，是因为它所期望的是实际发货。另一方面，期货通过交易转让。交易是一个票据交换所，它在期货销售的时候是客户，而在期货购买的时候是销售者。

     某人在现今市场短缺的时候，可以通过期货的超买来避险，反之亦然。销售者和客户都使用避嫌，这是因为双方都希望减小价格剧烈波动的风险。用期货避险的效果就是用一种风险替代另一种风险。价格风险被基差风险所替代。

     基差是商品现金价格与小麦期货价格之间的差别。基差反映了各种类型的因素，包括存货的储囤成本、到规定发货地点的运输成本，以及对现金价格将来会向哪个方向发展的市场预测。基差总在波动，但是不如价格波动的那么明显。

     买卖权可以给购买者以花相对少量的钱以特定的价格，在特定的时间范围购买潜在期货的权利，而不是义务。使用买卖权避险可能保护反向价格变化的影响，却不必放弃所有合适的价格变化的利益。

     投机者希望从价格波动中获利。通过承担市场中其他参与者反对的风险，投机者在市场中加入了变现能力，这对整个系统的运作很有必要。

     数据挖掘的一个长期挑战是使用历史的价格信息来预测几小时、几分钟或者几秒钟之后的价格走向。

     包含某个变量以一定的间隔观测结果的数据集称作时间序列。时间序列的获得必须不同于别的数据，因为信息和其他的值同样包含在观察序列中。

     在试图使用时间序列数据构建预测模型之前，把趋势和季节模式分隔开来是很重要的。它们都是任何时间序列预测的重要部分，但是可能使其他更细致的模式模糊。

     根据过去的数值预测一个时间序列的将来价值时，只有在能找到某种模式的时候才显得有意义。如果存在一种模式的话，它可能由两个部分组成：趋势和季节性。趋势是随时间进行非周期性变化的部分，季节性是周期性变化的部分。

     寻找趋势通常第一步是平滑。有几种平滑的方法，一个简单的方法是取平均值。在这种方法中，序列中的每个值用其邻近的一些数的平均值来替换。一旦发现趋势，就应当从原始的序列中减去，一边寻找季节性模式。一旦找到了季节性，其影响就可以从数据中通过差分去除。

     去除趋势和季节性是为了能够发现数据中还有哪些其他的模式。目的是将时间序列变成固定形式。

     固定的序列是一个具有固定期望、固定变化和固定自相关的序列。要活的固定序列可能需要不止一个级别的差分。一旦序列固定了，就为自回归模型做好了准备。自回归模型是一个公式，它表达的是时间序列早期数据中一些数据的线性组合成的一个元素值。

     为了将数据模型从一个可以预测平滑、无差分、无趋势和无季节性序列中的下一个元素转化成可以用来预测原始序列中的未来值，所有的数据变换过程都必须反执行一次。

     生产商联合是指成组的销售者约定在一起，在于销售者进行价格协定的时候能更加便捷。

     Web交易分类：
          B2B/B2C/C2C
          多对多，许多客户和销售者聚在一起；多对少，少量的客户（或者销售者）与许多销售者（或者客户）碰在一起；多对单,一个客户（或者销售者）进行商业操作；
          常规的（交叉工业）；特殊的（单一工业）；

     交易依赖于流通量；交易需要部分客户和销售者的诚信；交易需要结算（支付）方法；交易必须将地理情况和发货成本问题考虑进来；交易需要大量的销售者来捕捉网络效果。

     数据挖掘在Web交易中的应用：
          目的性广告；
          通知或者招募合适的投标者；
          预测将来的时尚或趋势；
          形成客户和销售客户网；
          优化拍卖的时机和期限；

     一个搜索引擎网站的目的性广告是具有吸引力的，这是因为通过其查询字符串潜在客户暴露出来他们的兴趣。一个拍卖网站的投标者不仅仅暴露了他们的兴趣，同时还暴露了他们愿意出钱买什么。

     以用户名和密码登陆的标志性客户。这就意味着有机会为每个客户创建一个特征文件。

     在正常情况下，基于Web的交易有能力提高市场效率，主要是通过他们的地理延伸，快速的分发信息，降低登录屏障并连接客户和消费者。

     
❤ 第7章  客户价值
     强调客户关系管理（CRM）就要求相应的加强创建和维护客户而价值尺度，并且管理好这些尺度使之能产生最大的回报。
     
     “成为客户”是通往客户价值计算的第一步。客户显然比非客户更有价值，但是提高客户的数量也可能对账本底线造成负面的影响。

     客户价值=客户收入的总和-客户消费的总和

     通常，计算客户价值的目的是为了了解将来会发生什么，这要求把未来的可能性加入到计算中来。在这种情况下，结果一般被称为客户价值的生命周期，因为它指的是客户整个生命周期的价值。称之为可能客户价值。

     客户价值帮助我们定位最好的客户；
     客户价值等于总体赢利；
     客户价值决定在客户关系上的投资；
     客户价值标识了我们应该摆脱的不良客户；

     把客户价值包含在商业处理过程中的最大好处是能够长期的定位客户。

     客户价值可能用于直接对客户进行分组。 这不仅在一个给定的时间点上有用，而且可在整个时间段内跟踪客户。统计这类数据，关键是在过去的某一时间点上重建客户价值。

     一个有用的客户的定义，由商业决策和可用数据的正确单位的组合决定。

     衡量价值的最重要单位是货币。

     货币偏见；地区和商品偏见；偏见随时间而改变。

     在客户价值计算中很容易加入无意识的偏见。价值计算基于收入和成本，它们会随时间和地理位置而改变。最重要的事情是理解偏见将会存在于计算的哪些地方和偏见对业务是否重要。

     为了下钻到客户价值原因，主要是以客户价值组成和客户价值驱动为基础的。
     在重要的业务维度上聚集客户价值。

     把客户价值驱动转换成客户价值的组成需要使用商业规则，相应的，也就依赖于引用表，特别是某特定时间点的成本和收入。

     商业规则需要通过不同的业务维度来处理成本和收入的差别。比如，时间维度，区域维度，商品维度，其他信息。

     收入应该依赖于客户提出的要求，而不是所付的总费用。收入计算不应该包括事务的附带成本，因为这些收入给出了更多关于特定位置的信息，而不是客户信息。

     在考虑客户价值的同时也考虑市场活动的价值。一个切实可行的方法是跟踪市场活动、反馈率、每个反馈的成本、客户保持期和客户价值对市场活动的长期影响。与活动有关的成本和客户有关的成本在结构上是完全不同的。市场活动的成本和客户价值的成本从总数上讲是相同的。

     长期客户价值的最重要的决定因素是如何获取客户的及客户的最初行为（商品类型，付款行为，保持期等）。跟踪这些信息对于长期的获取客户是很重要的。

     客户渠道：
          恳求型（客户在指定联系点上登记的渠道：外地电话销售，宣传表格）；
          提示型（给定客户提示信息但是需要客户采取某种行动的渠道：Web广告，直接发邮件，目的性广告）；
          自发型（占有主动权的渠道：亲口推荐，做广告）

     客户价值可简单的定义成从客户那里获得的收入减去为客户提供的收入

     
第8章  知道何时开始担忧：市场营销中的风险函数和幸存分析法
     客户保持力指的是客户关系会维持多久。

     比较两组客户的另一种方式是比较客户中有半数离开时用的时间。可以称之为客户的半生命周期，这个统计术语称为客户保持期中值。

     应用风险函数就是简单地把一些概率应用到合适的客户群体中去。计算未知客户的存在期，然后选择合适的风险函数来确定下一个时间段客户是否会幸存的概率。

     因为在平均客户寿命和存在曲线之间存在着关系，因此对平均剩余寿命的计算是可能的——准确的说是对客户保持期内的价值所需的计算。

     对于大多数应用来说，我们希望不仅仅通过客户的存在期来区分他们。一种方法是为不同群体的客户创建不同的风险函数，比如通过他们的原始渠道、地区及其他一些特性。另一个区分客户的方法是依据他们离开时的方式。

     在每个时间段内，客户都处于活动、停止或审查状态。一个客户被审查是因为他仍然处于活动状态或者因为他已经被停止。审查比寿命晚一个时间单位发生。

     存在曲线提供了一定量时间内有多少客户被保留下来的信息。

     风险率给出了在某个时间点上，客户可能终止的概率；幸存率告诉了我们在某个时间点上一个客户会幸存到该时间的概率。

     幸存率从100%开始总是呈下降趋势。当风险率大非常大时，曲线下降坡度比较陡。当风险比较小时，坡度下降比较平缓。

     幸存率是直接通过风险率来计算的。

     客户存在曲线应当用幸存曲线来生成。也就是说，先计算风险率，然后再获得幸存曲线。
     
     在利用过去的数据来预测未来某个特定事件，比如客户损耗，发生的时间，风险函数是一个非常好的方法。风险的一个强有力的方面是具有确定哪些因素在开始时能够增加或减少风险的能力。

   
第9章  群组分析：使用群组跟踪客户
     大部分数据挖掘和统计算法试图去揭开所有的历史的所知的模式。这被称作模型组。

     在确定长期行为方面，如何获得客户，以及他们的初始行为怎样可能是一个非常重要的因素。

     获得的来源和原始客户的交互作用是收集和记录客户信息的一些最重要的数据。（获得的来源；获得的时间；地域；客户类型；初始行为）
     
     获得的来源：
          恳求获得：指那些直接被说服购买或订货的客户。（电话联络或个人定点推销的客户）
          激励获得：指那些用一些方法联络以提供关于成为其客户的咨询而成为客户的客户。（直接邮寄，电子邮件，点击网址广告，有免费电话的广播广告）
          自愿获得：指那些不知道其具体信息的客户。
          推荐获得：指那些被其他客户推荐而来的客户。

     客户类型：居民客户、小企业客户、大企业客户。

     初始行为：客户选择什么样的商品/价格计划；客户如何支付购买商品的费用；在购买之前与客户有多久的接触。

     相似客户单元：
          都从大约相同的时间点开始；
          都被以相似的方式获得；
          有相同的初始值；
          具有相似的群组关系

     群组间可以互相重叠，也就是在同一个单元中的客户可以处于两个不同的群组。对于一个给定的升级客户的群组来说，它仅有在升级执行日期附近的客户组成。

     哪一个客户处于哪一个群组取决于客户什么时候升级。一个客户可能同时处于三个群组或不在其中任何一个内。

     在同一个单元内的客户看起来没有什么差别，他们都是基于客户开始时的初始条件。群组是由在市场干预行为出现的日期附近的单元成员组成的。单元并不依赖于我们所对比的客户，而群组具有这种依赖性。

     群组是集中在特定市场干预下产生的单元的子集。市场干预行为是一次升级，一次客户支持请求，或者是一次特殊市场运作的参与等。使用群组我们可以达到使保持力和客户价值的量化得到改善的目的，甚至当干预在每个客户关系的不同点发生的时候。引自 全书缺最后两章
18人阅读
> mhsj的所有笔记（29篇）
说明 · · · · · ·

表示其中内容是对原文的摘抄