点击率预测用例摘要
此用例基于公开发布的 "TB 单击 Logs" 数据集来自 "Criteo AI 实验室"。随着 ML 平台和应用程序的最新发展,我们现在非常关注大规模学习。点击率( CTR )是指每 100 次在线广告曝光的平均点击次数(以百分比表示)。它已广泛用作各种行业垂直市场和用例的关键指标,包括数字营销,零售,电子商务和服务提供商。使用 CTR 作为潜在客户流量的重要指标的示例包括:
-
* 数字营销: * 在中 "Google 分析",可以使用 CTR 来衡量广告商或商家的关键字,广告和免费列表的表现。如果 CTR 较高,则表明用户发现您的广告和列表很有用且相关。CTR 还有助于实现关键字的预期 CTR ,它是的组成部分 "AD 排名"。
-
* 电子商务: * 除利用外 "Google 分析",电子商务后端至少有一些访客统计信息。虽然这些统计信息乍看起来可能并不有用,但通常很容易阅读,并且可能比其他信息更准确。由此类统计信息组成的第一方数据集属于专有数据集,因此与电子商务销售商,买家和平台最相关。这些数据集可用于设置基准,并通过构建时间序列来与去年和昨天的结果进行比较,以供进一步分析。
-
* 零售: * Brick-and-mortar 零售商可以将访客数量和客户数量与 CTR 相关联。客户数量可从其销售点历史记录中查看。零售商网站或广告流量的 CTR 可能会导致上述销售。忠诚度计划是另一个用例,因为从在线广告或其他网站转出的客户可能会加入该计划以获得奖励。零售商可以通过忠诚度计划赢得客户,并记录销售历史记录中的行为,从而构建一个建议系统,该系统不仅可以预测不同类别的消费者购买行为,还可以对优惠券进行个性化设置并减少流失。
-
* 服务提供商: * 电信公司和互联网服务提供商拥有大量第一方用户遥测数据,可用于富有洞察力的 AI , ML 和分析用例。例如,电信可以利用其移动用户每天的 Web 浏览顶级域历史日志来微调现有模型,以生成最新的受众细分,预测客户行为,并与广告商协作发布实时广告,从而获得更好的在线体验。在这种数据驱动型营销工作流中, CTR 是反映转换的一个重要指标。
在数字化营销背景下, "Trigeo Terabyte 单击 Logs" 现在是评估 ML 平台和算法可扩展性的参考数据集。通过预测点击率,广告宣传者可以选择最有可能对广告做出响应的访客,分析浏览历史记录,并根据用户兴趣显示最相关的广告。
本技术报告中提供的解决方案重点介绍了以下优势:
-
Azure NetApp Files 在分布式或大规模培训方面的优势
-
支持 CUDA 的数据处理( cuDF , cuPy 等)和 ML 算法( cuML )
-
分布式培训的 dask 并行计算框架
基于快速 AI 和 Azure NetApp Files 构建的端到端工作流展示了随机林模型训练时间大幅缩短两个数量级。与传统的熊猫方法相比,每天处理实际点击日志时,这种改进非常重要,其中每天包含 45 GB 的结构化表格数据(平均)。这相当于一个包含大约 200 亿行的 DataFrame 。我们将在本技术报告中演示集群环境设置,框架和库安装,数据加载和处理,传统培训与分布式培训,可视化和监控,并比较关键的端到端运行时结果。