Transcript
SAP Predictive Analysis
机帮助
■ SAP Predictive Analysis 1.0.11
2013-05-15
版权所有
© 2013 SAP AG 股份公司或其关联公司版权所有,保留所有权利。未经SAP股份公司明确许可,不 得以任何形式或为任何目的复制或传播本文的任何内容。本文包含的信息如有更改,恕不另行事先 通知。 由SAP股份公司及其分销商营销的部分软件产品包含其它软件供应商的丏有软件组件。各国 的产品规格可能不同。 上述资料由SAP股份公司及其关联公司(统称“SAP集团”)提供,仅供参 考,不构成任何形式的陈述或保证,其中如若存在任何错误或疏漏,SAP集团概不负责。与SAP集团 产品和服务相关的保证仅限于该等产品和服务随附的保证声明(若有)中明确提出之保证。本文中 的任何信息均不构成额外保证。 SAP和本文提及的其它SAP产品和服务及其各自标识均为SAP股份公 司在德国和其他国家的商标或注册商标。 如欲了解更多商标信息和声明,请访问: http://www.sap.com/china/about/company/legal/copyright/index.epx#trademark。 2013-05-24
目录
3
第 1 章
关于本帮助..........................................................6
第 2 章
SAP Predictive Analysis 概述........................................7
第 3 章
安装 SAP Predictive Analysis........................................8
3.1 3.2 3.3 3.4 3.5 3.5.1 3.5.2 3.5.3 3.5.4 3.6
安装先决条件..8 使用安装程序安装 SAP Predictive Analysis..8 配置跟踪日志..9 卸载 SAP Predictive Analysis ..11 使用 SAP HANA 时需要考虑的重要事项..11 为 SAP Predictive Analysis 用户配置 _SYS_REPO..12 支持的 OLAP 度量 ..12 获取访问 HANA 联机数据源的模式权限..12 使用 AFL(应用程序函数库)运行 PAL 算法的权限 ..13 使用 SAP BusinessObjects Universe 时需要考虑的重要事项..13
第 4 章
开源 R 安装和配置..................................................15
4.1 4.2 4.3
安装 R-2.15.1 和所需的包..15 配置 R..15 在 SAP HANA 数据库中使用带 R 整合算法的 SAP Predictive Analysis 的重要 注意事项..16
第 5 章
SAP Predictive Analysis 入门.......................................18
5.1 5.2 5.3 5.3.1 5.3.2 5.4
SAP Predictive Analysis 基本信息..18 启动 SAP Predictive Analysis..19 理解 SAP Predictive Analysis..19 设计器视图..20 结果视图..20 SAP Predictive Analysis 使用流程..21
第 6 章
构建分析...........................................................23
6.1 6.1.1
创建分析..23 从数据源中获取数据..23
2013-05-24
目录
4
6.1.2 6.1.3 6.1.4 6.2 6.3 6.4
准备分析数据..24 应用算法..25 存储分析的结果..27 运行分析..27 保存分析..28 查看结果..28
第 7 章
分析数据...........................................................29
7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.1.5 7.1.6 7.1.7 7.1.8 7.1.9
可视化统计图..29 散点矩阵图..29 统计汇总图..30 平行坐标..30 决策树..31 回归图..32 时间序列图..33 簇图..34 先验标签云图..34 分类/误分类矩阵图..35
第 8 章
使用模型...........................................................36
8.1 8.2 8.3 8.4 8.5 8.6 8.6.1 8.7 8.8
在进程内(In-Proc)分析中创建模型..36 在 HANA 数据库内(In-DB)分析中创建模型..36 查看模型信息..37 将模型导出为 PMML..37 将模型导出为 .spar 文件..38 将 SAP HANA PAL 模型导出为存储过程..38 将导出的存储过程从 SAP HANA 中删除 ..39 导入模型..39 删除模型..40
第 9 章
部件属性...........................................................41
9.1 9.1.1 9.1.2 9.1.3 9.1.4 9.1.5 9.1.6 9.1.7 9.1.8 9.2 9.2.1 9.2.2 9.2.3
算法..41 回归..41 异常值..54 时间序列..58 决策树..65 神经网络..71 聚类..74 关联..76 分类..80 数据准备部件..81 公式..81 示例..86 数据类型定义..89
2013-05-24
目录
5
9.2.4 9.2.5 9.2.6 9.2.7 9.3 9.3.1 9.3.2 9.3.3 9.4
过滤器..89 规范化..93 HANA 分箱..96 HANA 规范化..98 数据写入器..101 CSV 写入器..101 JDBC 写入器..102 HANA 写入器..102 保存的模型..103
附录 A
更多信息..........................................................104
2013-05-24
关于本帮助
第 1 章 关于本帮助
本帮助提供了以下内容: • SAP Predictive Analysis 概述 • 有关可在 SAP Predictive Analysis 中使用的各种算法和部件的信息 • 有关如何创建分析和模型的信息 • 有关如何使用 Predictive Analysis 可视化对象技术分析数据的信息 本帮助未提供以下内容: • 如何从各种数据源中获取数据 • 如何在“准备”面板上进行数据操作、数据清洗和语义扩充的操作 • 如何分享统计图和数据集 注意: SAP Predictive Analysis 从 SAP Lumira 中继承了数据获取和数据操作的功能。因此,针对本帮 助未论述的工作流的信息,请参阅
\Desktop\documentation 中的《SAP Lumira 用户指 南》。建议同时阅读《SAP Lumira 用户指南》与《SAP Predictive Analysis 联机帮助》,以理解使 用 Predictive Analysis 算法进行数据分析的完整工作流。
6
2013-05-24
SAP Predictive Analysis 概述
第 2 章 SAP Predictive Analysis 概述
SAP Predictive Analysis 是一款统计分析和数据挖掘解决方案,可用于生成预测性模型,发现数 据中隐藏的洞察力和关系,从而对未来事件进行预测。 使用 SAP Predictive Analysis,可对数据进行各种分析,包括时间序列预测、异常值检测、趋势 分析、分类分析、分群分析和亲缘性分析。此应用程序可使用户使用不同的可视化技术(如散点矩阵 图、平行坐标、簇图和决策树)对数据进行分析。 SAP Predictive Analysis 提供了一系列 Predictive Analysis 算法,支持 R 开源统计分析语言 的使用,并提供内存中数据挖掘的能力以高效处理大量的数据分析。 注意: SAP Predictive Analysis 从 SAP Lumira 中继承了数据获取和数据操作的功能。SAP Lumira 是一 款数据操作和可视化工具。使用 SAP Lumira,用户可以连接到各种数据源(如平面文件、相关数据库、 内存中的数据库和 SAP BusinessObjects Universes),并且可以操作不同的数据量(从 CSV 文件中 一个小矩阵的数据到 SAP HANA 中非常大的数据集),选择和清洗数据,以及操作数据。
7
2013-05-24
安装 SAP Predictive Analysis
第 3 章 安装 SAP Predictive Analysis
3.1 安装先决条件
在安装 SAP Predictive Analysis 之前,确保满足以下要求: • 计算机上必须安装 Microsoft Windows 7 操作系统。32 位和 64 位计算机均支持 SAP Predictive Analysis。 • 如果您的计算机已安装 SAP Lumira,那么在安装 SAP Predictive Analysis 之前需要将其卸载。 • 用户必须具有管理员权限才能在计算机上安装 SAP Predictive Analysis。 • 以下资源必须具有充足的可用磁盘空间: 资源
所需空间
承载用户应用程序数据文件夹的驱动器
2.5 GB
用户临时文件夹(\AppData\Local\Temp)
200 MB
承载安装目录的驱动器
500 MB
• 以下端口必须可用: 端口
用于
6401
Sybase IQ 数据库
范围介于 4520 到 4539 之间的任何端口
SAP Predictive Analysis 安装
有关支持的环境和硬件要求的详细列表,请查看 http://service.sap.com/pam 上的“Product Availibility Matrix”(产品可用性矩阵)。
3.2 使用安装程序安装 SAP Predictive Analysis
8
2013-05-24
安装 SAP Predictive Analysis
1。 运行 setup.exe 文件。 将出现带警告消息的“用户帐户控制”对话框。 2。 选择确认提示中的“是”。 3。 指定安装 SAP Predictive Analysis 的目标文件夹。 • 要接受默认的安装目录,请选择“下一步”。 • 要导航到希望安装 SAP Predictive Analysis 的文件夹,请选择“浏览”。选择所需的文件夹, 然后选择“下一步”。 将打开“许可协议”页面。 4。 查看许可协议,选择“我接受许可协议”,然后选择“下一步”。 5。 要开始安装,请选择“下一步”。 “安装完成”页面打开后,安装已完成。 6。 要退出安装,请选择“完成”。
3.3 配置跟踪日志
此过程用于使 SAP Predictive Analysis 应用程序可记录有关应用程序执行情况的信息。应用程序 失败或遇到问题时,这些日志信息有助于确定问题。 默认情况下,错误消息和跟踪消息被写入计算机的 %TEMP%\sapvi\logs 文件夹中。但是,用户可以 更改此文件夹的默认位置,其中可通过执行以下步骤写入安装信息: 1。 在任一位置创建放置生成日志的文件夹。 注意: 确保用户具有该文件夹的“写”权限。 例如,C:\logs。 2。 创建 BO_Trace.ini 文件,并将以下跟踪详细信息添加到此文件。 active=false; severity='E'; importance=xs; size=1000000; keep_num=437; alert=true;
下表列出了可用于配置服务器跟踪的一般参数。
9
2013-05-24
安装 SAP Predictive Analysis
参数
可能的值
active
false、true
importance
“<<”、“<=”、“==”、“>=”、 “>>”、xs、s、m、l、xl
说明
如果设置为 true,将跟踪符合在 importance 参数中设置的阈值的跟踪消息。如果 设置为 false,将不会基于“importance” 级别对跟踪消息进行跟踪。默认值为 false。 指定用于跟踪消息的阈值。将跟踪线程 外的所有消息。默认值为 m(中等)。
注意: importance = xs 或 importance = << 是最详细的选项,而 importance = xl 或 importance = >> 是最不详细的选项。 alert
false、true
severity “ ”、“W”、“E”、“A”、success、 warning、error、assert size
可能的值为大于或等于 1000 的整数
keep_num 可能的值为大于或等于 1000 的整数 adminis- 字符串或整数 trator
如果设置为 true,将跟踪符合在 severity 参数中设置的阈值的跟踪消息。 如果设置为 false,将不会基于“severity”级别对跟踪消息进行跟踪。默认值为 true。 指定可依据其对消息进行跟踪的严重性 阈值。默认值为“E”。 指定跟踪日志文件中的消息的数量,达 到该数量后,将创建一个新的跟踪日志文 件。默认值为 100000。 指定要保留的日志数量。 指定要在输出日志文件中使用的注释。 例如,如果 administrator = "hello"
此字符串将插入到日志文件中。 log_dir
例如,C:\logs。
alon、off ways_close
指定输出日志文件目录。默认情况下, 日志文件存储在 Logging 文件夹中。 指定是否应在将跟踪写入日志文件后关 闭日志文件。默认值为 off。
3。 保存并关闭 BO_trace.ini 文件。 4。 将 BO_Trace.ini 文件放在 C:\log 下。
10
2013-05-24
安装 SAP Predictive Analysis
5。 设置以下环境变量: • BO_TRACE_LOGDIR = C:/logs • BO_TRACE_CONFIGDIR = C:/logs • BO_TRACE_CONFIGFILE = C:/logs/BO_Trace.ini 6。 重新启动此应用程序。 应用程序日志将在指定位置生成。例如,C:\logs。
3.4 卸载 SAP Predictive Analysis
1。 选择“开始” > “控制面板” > “程序”。 2。 选择“卸载程序”。 3。 右键单击“SAP Predictive Analysis”,然后选择“卸载”。 将出现 SAP Predictive Analysis 安装向导。 4。 在“确认卸载”页面上,选择“下一步”。 5。 要完成卸载,请选择“完成”。
3.5 使用 SAP HANA 时需要考虑的重要事项
本节介绍将 SAP Predictive Analysis 与 SAP HANA 数据库配合使用时需要考虑的重要事项和要 求。 有关发布到 SAP HANA 的安全要求 必须先给用户分配特定权限和角色,然后用户才能将内容发布到 SAP HANA。从 SAP HANA 获取数据 也需要这些角色和权限。使用 SAP HANA 工作室应用程序给用户分配角色和权限。有关管理 SAP HANA 数据库以及使用 SAP HANA 工作室的信息,请参阅《SAP HANA Database – Administration Guide》 (SAP HANA 数据库 - 管理指南)。有关用户安全的信息,请参阅《SAP HANA Security Guide (Including SAP HANA Database Security)》(SAP HANA 安全指南(包含 SAP HANA 数据库安全))。 用于从 SAP Predictive Analysis 登录 SAP HANA 系统的用户帐户必须分配 MODELING 角色(在 SAP HANA 中)。 注意: 此操作只能由具有 ROLE_ADMIN 权限的用户在 SAP HANA 数据库上执行。 当 SAP Predictive Analysis 用户登录 SAP HANA 系统时,内部 _SYS_REPO 帐户必须:
11
2013-05-24
安装 SAP Predictive Analysis
• 获得 SELECT SQL 权限。 • 在(SAP Predictive Analysis)用户的模式上选择了“Grantable to others”(可授予其他) 选项。
3.5.1 为 SAP Predictive Analysis 用户配置 _SYS_REPO
如果 SAP Predictive Analysis 用户的帐户已在 SAP HANA 系统中定义,则执行以下操作: 1。 在 SAP HANA 工作室的“Navigator”(导航)窗口的系统连接中,选择“Catalog”(目录) >“Authorization”(身份验证)>“Users”(用户)。 2。 双击 _SYS_REPO 帐户。 3。 在“SQL Privileges”(SQL 权限)选项卡上,单击“+”图标,然后输入用户模式的名称,选择 “OK”(确定)。 4。 选择“SELECT”,然后从“Grantable to others”(可授予其他)下面选择相应的“Yes”(是)。 5。 选择“Deploy”(部署)或“Save”(保存)。 注意: 用户也可以在 SAP HANA 工作室 中打开一个 SQL 编辑器,然后运行以下 SQL 语句: GRANT SELECT ON SCHEMA TO _SYS_REPO WITH GRANT OPTION
3.5.2 支持的 OLAP 度量
SAP HANA 仅支持以下 OLAP 数据源中的聚合的度量 • • • •
SUM MIN MAX COUNT
如果数据集在某个度量上包含上文未列出的聚合,发布期间该聚合将被 SAP HANA 忽略,并且不会 成为最终发布的项目的一部分。
3.5.3 获取访问 HANA 联机数据源的模式权限
12
2013-05-24
安装 SAP Predictive Analysis
模式(_SYS_REPO、_SYS_BI、_SYS_BIC)权限由 SAP HANA 管理员提供。如果 SAP Predictive Analysis 用户的帐户已在 SAP HANA 系统中定义,那么 SAP HANA 管理员必须执行以下步骤以将模式 权限授权给 SAP Predictive Analysis 用户: 1。 在 SAP HANA 工作室的“Navigator”(导航器)窗口的系统连接中,选择“Security”(安全性) > “Users”(用户)。 2。 双击 (HANA 联机用户帐户)。 3。 在“SQL Privileges”(SQL 权限)选项卡中,单击“+”图标,选择 _SYS_REPO,然后选择“OK” (确定)。 4。 在“Privileges for '_SYS_REPO'”(“_SYS_REPO”的权限)下,选择“SELECT”。 注意: 对模式 _SYS_BI 和模式 _SYS_BIC 执行相同操作。
3.5.4 使用 AFL(应用程序函数库)运行 PAL 算法的权限
如果 SAP Predictive Analysis 用户的帐户已在 SAP HANA 系统中定义,那么 SAP HANA 管理员必 须执行以下步骤: 1。 在 SAP HANA 工作室的“Navigator”(导航器)窗口的系统连接中,选择“Security”(安全性) > “Users”(用户)。 2。 双击 (HANA 联机用户帐户)。 3。 在“SQL Privileges”(SQL 权限)选项卡中,单击“+”图标,选择 AFL_WRAPPER_GENERATOR(SYSTEM),然后选择“OK”(确定)。 4。 在“Privileges for 'AFL_WRAPPER_GENERATOR(SYSTEM)'”(“AFL_WRAPPER_GENERATOR(SYSTEM)” 的权限)下,选择“EXECUTE”。 5。 在“Granted Roles”(已授予的角色)选项卡中,单击“+”图标,选择 AFL__SYS_AFL_AFLPAL_EXECUTE,然后选择“OK”(确定)。 注意: 有关如何安装 AFL 和创建 AFL_WRAPPER_GENERATOR(SYSTEM) 过程的更多信息,请参阅《SAP HANA Predictive Analysis Library (PAL) Reference Guide》(SAP HANA Predictive Analysis Library (PAL) 参考指南)
3.6 使用 SAP BusinessObjects Universe 时需要考虑的重要事项
13
2013-05-24
安装 SAP Predictive Analysis
• 要从存在于 BI 4.0 平台上的 Universe 获取数据,请确保 Web Intelligence 服务器正在运 行。 • 另需要确保 Business Intelligence 平台的 BI 4.0 SP2 修补程序为级别 14 或以上。 注意: 用户也可以从存在于 BI 4.0 SP3 和 BI 4.0 SP4 平台上的 Universe 获取数据。
14
2013-05-24
开源 R 安装和配置
第 4 章 开源 R 安装和配置
R 是一种开源的统计计算编程语言和软件环境。
4.1 安装 R-2.15.1 和所需的包
要在分析中使用开源 R 算法,需要安装 R 环境并使用 SAP Predictive Analysis 应用程序对该环 境进行配置。 SAP Predictive Analysis 提供一个选项,用于从应用程序内部安装和配置 R 2.15.1 和所需的包。 确保安装时已连接到 Internet。 要安装 R 环境和所需的包,请执行以下步骤: 1。 启动 SAP Predictive Analysis 应用程序。 2。 在“文件”菜单上选择“安装并配置 R”。 3。 选择“安装 R”。 4。 请阅读开源 R 许可协议和重要说明,然后选择“我同意使用此脚本安装 R”。 5。 选择“确定”。 注意: 如果已安装 R 2.15.x,可以使用该步骤安装所需的 R 包。
4.2 配置 R
安装 R 之后,需要配置 R 环境以在应用程序中启用 R 算法。如果已安装 R-2.11.1 或 R-2.15.1 以 及所需的包,则可以跳过 R 的安装步骤,直接配置 R。 注意: 配置 R-2.11.1 之前,需要设置某些环境变量。例如,如果将 R 安装到了 C:\Program Files\R\R-2.11.1,那么需要如下设置环境变量:
15
2013-05-24
开源 R 安装和配置
• R_HOME= C:\Program Files\R\R-2.11.1 • R_LIBS = C:\Program Files\R\R-2.11.1\library • Path = 现有 path 变量; C:\Program Files\R\R-2.11.1\library\rJava\jri; C:\Program Files\R\R-2.11.1\bin 要配置 R,请执行以下步骤: 1。 启动 SAP Predictive Analysis 应用程序。 2。 在“文件”菜单上选择“安装并配置 R”。 3。 在“配置”选项卡上,选择“启用开源 R 算法”。 4。 选择“浏览”以选择 R 的安装文件夹。 5。 选择“确定”。 将出现带警告消息的“用户帐户控制”对话框。 6。 选择确认提示中的“是”。
4.3 在 SAP HANA 数据库中使用带 R 整合算法的 SAP Predictive Analysis 的 重要注意事项
SAP HANA 支持通过 R 整合和 Predictive Analysis 库(PAL)实现的数据库内(In-DB)数据挖 掘。关于在 SAP HANA 数据库中使用带 R 整合算法的 SAP Predictive Analysis,需要注意以下重要 事项: • 要在 SAP HANA 数据库中使用 R 算法,必须在 SAP HANA 上安装和配置 R。有关如何在 SAP HANA 上安装和配置 R 的信息,请参阅 http://help.sap.com/hana/hana_dev_r_emb_en.pdf 上的 《SAP HANA R integration guide》(SAP HANA R 集成指南)。 • 确保按需授予“Create R script”(创建 R-Script)用户特权。 • 在 SAP HANA 中执行 R 整合算法之前,确保已安装以下包。 • rJava • RODBC • RJDBC • DBI • monmlp • AMORE • XML • PMML (pmml_1.2.32) 注意: 如果安装的 PMML 版本早于 pmml_1.2.32,那么将不会出现统计图可视化对象。 • arules • caret
16
2013-05-24
开源 R 安装和配置
• • • •
17
reshape plyr foreach iterator
2013-05-24
SAP Predictive Analysis 入门
第 5 章 SAP Predictive Analysis 入门
5.1 SAP Predictive Analysis 基本信息
部件 部件是 SAP Predictive Analysis 的基本处理单元。每个部件包含输入和/或输出标记(连接点)。 这些标记用于将部件通过连接器连接在一起。当将部件连接在一起时,数据可从前趋部件传到后继部 件。 SAP Predictive Analysis 包括以下部件: • 数据准备 • 算法 • 数据写入器
可以通过“预测”面板上的“设计器”视图访问部件。将部件添加到分析编辑器后,可通过部件的 状态图标您识别其状态。 部件可以显示以下几种状态: • (未配置):将部件拖动到分析编辑器上时显示此状态。此状态表明运行分析前需要对该部 件进行配置。 • (已配置):对部件所有必需的属性完成配置时显示此状态。 • (成功):成功执行分析后显示此状态。 • (失败):如果部件造成执行分析失败,将显示此状态。 分析 分析是按照特定序列与连接器连接在一起的一系列不同部件,这些部件可定义数据流的方向。
18
2013-05-24
SAP Predictive Analysis 入门
模型 模型是使用历史数据对算法进行培训而创建的可重用部件。 数据库内(In-DB) 数据库内(In-DB)是一种分析执行模式,这种模式使用数据挖掘功能在数据库内对数据进行处理。 在此模式下,不会将数据从数据库中取出进行处理,因此处理速度非常快。这种模式可用来处理大型数 据集。SAP HANA 通过 R 整合和 Predictive Analysis 库(PAL)对数据库内数据挖掘提供支持。 进程内(In-Proc) 进程内是一种分析执行模式,这种模式通过将数据从数据库中取出至 Predictive Analysis 进程空 间内对数据进行处理。此种分析类型也被称为数据库外分析。
5.2 启动 SAP Predictive Analysis
要启动 SAP Predictive Analysis,请选择“开始” > “所有程序” > “SAP Business Intelligence” > “SAP Predictive Analysis” > “SAP Predictive Analysis”。
5.3 理解 SAP Predictive Analysis
启动 SAP Predictive Analysis 时将出现主页。主页为用户提供 SAP Predictive Analysis 的入 门信息。 此外还有一个“示例”文件夹,其中包含了两个 SAP Predictive Analysis 示例文档,如“Customer Satisfaction Analysis”(客户满意度分析)和“Revenue Forecasting Analysis”(收入预测分 析)。用户还可以使用 SAP Predictive Analysis 许可密钥在 SAP Lumira 中查看 SAP Predictive Analysis 示例文档。 要使用 SAP Predictive Analysis 开始分析数据,用户需要首先连接到数据源并获取用来分析的数 据。获取数据后,用户可以对数据执行以下操作: • 应用数据操作和数据清洗函数准备用来分析的数据 • 应用数据挖掘和统计分析算法分析数据 • 与外部合作者分享数据集和统计图 注意: 本指南说明了如何通过应用数据挖掘和统计分析算法进行数据分析。有关如何获取数据、准备数据 和分享数据集的信息,请参阅 http://help.sap.com/ 上的《SAP Lumira 用户指南》。
19
2013-05-24
SAP Predictive Analysis 入门
一旦从数据源获取数据,用户需要切换到“预测”面板以进行数据分析。
5.3.1 设计器视图
设计器视图可使用户能够设计和运行分析,以及创建预测性模型。
5.3.2 结果视图
通过使用各种可视化对象技术和直观的统计图,结果视图使用户能够理解数据和分析结果。
20
2013-05-24
SAP Predictive Analysis 入门
5.4 SAP Predictive Analysis 使用流程
下文概述了基于数据集构建统计图时可遵循的流程。此流程并非线性流程,用户可以从一个步骤返 回到先前的步骤以微调统计图或数据。 数据处理步骤
说明
连接到数据源。
针对不同数据源的步骤如下: • RDBMS:输入凭据,接着连接到数据库服务器,然后浏览并选择 一个数据源;例如,如果要连接到 SAP HANA,请选择一个视图和 多维数据集以构建统计图。 • 平面文件:选择要获取、截短、显示或隐藏的列。 • Universe:输入 Universe 凭据,然后连接到中央管理服务器 资源库,接着选择一个 Universe 以构建统计图。
注意: 有关如何连接到数据源的 信息,请参阅《SAP Lumira 用户指南》中的“连接到数 据源”一节。 查看和整理列及特性。 注意: 有关如何查看列及特性的 信息,请参阅《SAP Lumira 用户指南》中的“准备数 据”一节。
21
您可以以列或构面的形式查看获取的数据。用户可以整理数据显示 以简化统计图构建,方法是执行以下操作: • 创建过滤器并隐藏不需要的列 • 创建度量、时间层次结构和地理层次结构 • 使用一系列操作工具来清理并整理列中的数据 • 通过多种多样的可用函数,用公式创建列
2013-05-24
SAP Predictive Analysis 入门
数据处理步骤
说明
一旦在“准备”面板上获取到相关数据,请切换到“预测”面板并 创建分析,以寻找数据中的模式并预测未来的结果。 使用 Predictive Analysis 算法分析数据。 注意: 本指南提供了有关如何使 用 Predictive Analysis 算 法分析数据的信息
在“预测”面板中,可执行以下操作: • 创建分析 • 构建预测性模型 • 查看分析结果 • 查看模型可视化对象 • 构建统计图 注意: 有关构建统计图的信息,请参阅《SAP Lumira 用户指南》中的 “将数据可视化”一节。
保存分析
22
命名并保存包含统计图的分析。分析保存在文件格式为 .SViD 的 文档中,此文档具体位置是配置文件路径中 Documents 文件夹下的应 用程序文件夹。
2013-05-24
构建分析
第 6 章 构建分析
6.1 创建分析
可以使用 SAP Predictive Analysis 通过一系列部件运行数据进行数据挖掘和统计分析的操作。这 一系列部件必须通过连接器彼此相连,用以定义数据流的方向。此过程被称为分析。使用分析,用户可 将数据从数据源中读出,通过应用数据操作函数以及数据挖掘和统计算法对数据进行分析,然后储存分 析结果。 。 。 。 。
要创建分析,请执行以下步骤: 1 从数据源中获取数据 2 (可选)准备分析数据(例如,通过过滤数据) 3 应用算法 4 (可选)存储分析结果以备将来进行分析
相关主题 • 第 23 • 第 24 • 第 25 • 第 27
页上的“从数据源中获取数据” 页上的“准备分析数据” 页上的“应用算法” 页上的“存储分析的结果”
6.1.1 从数据源中获取数据
1。 在主页上,选择左上角的“新建文档”按钮。 2。 连接到或浏览到数据源。 可以从以下数据源获取数据:
23
2013-05-24
构建分析
数据源
说明
CSV 文件
用户可以从逗号分隔值数据文件中获取数据并使 用 SAP 和 R 算法执行进程内(in-proc)分析。
FreeHand SQL
用户可以通过手动输入目标数据源的 SQL,创建 自己的数据提供者,并使用 SAP 和 R 算法执行 进程内(in-proc)分析。
SAP HANA 脱机
用户可以从 SAP HANA 表、视图和分析视图中获 取数据并使用 SAP 和 R 算法执行进程内(inproc)分析。
SAP HANA 联机
用户可以从 SAP HANA 表、视图和分析视图中获 取数据并使用 HANA PAL 算法执行数据库内(indb)分析。
MS Excel
用户可以从 Microsoft Excel 表格中获取数据 并使用 SAP 和 R 算法执行进程内(in-proc) 分析。
Universe 3.x
用户可以从存在于 XI 3.x 平台的 SAP BusinessObjects Universes 中获取数据并使用 SAP 和 R 算法执行进程内(in-proc)分析。
Universe 4.x
用户可以从存在于 BI 4.x 平台的 SAP BusinessObjects Universes 中获取数据并使用 SAP 和 R 算法执行进程内(in-proc)分析。
3。 根据需要,选择“获取”或“选择”。 列将显示在数据窗格中,特性和度量显示在语义窗格的左侧。现在,用户可以开始构建分析。在“预 测”面板上,已配置的数据读取器部件将添加到分析编辑器中。用户可以运行分析以查看数据读取器部 件的结果。 注意: 有关如何连接到特定数据源的信息,请参阅 http://help.sap.com/ 上的《SAP Lumira 用户指南》。
6.1.2 准备分析数据
此步骤是可选的。
24
2013-05-24
构建分析
在很多情况下,数据源中的原始数据不适合用来分析。要想获得准确结果,用户可能需要在分析前 准备并处理数据。用户可以在“准备”面板上查找数据操作函数,在“预测”面板上查找数据准备函 数。 数据准备包括检查数据的准确性和缺失的字段、根据范围值过滤数据、对数据进行抽样以调查数据 的子集以及对数据进行操作。用户可以使用数据准备部件处理数据。 1。 在“预测”面板的“数据准备”选项卡上,双击所需的数据准备部件。 数据准备部件将添加到分析编辑器中,并创建自动连接到数据读取器部件的连接。 2。 右键单击该数据准备部件,然后选择“配置属性”。 3。 在部件属性对话框中,输入数据准备部件属性的必要详细信息。 4。 选择“保存并关闭”。 5。 要查看数据读取器部件和数据准备部件的结果,请选择“ ”。 相关主题 • 第 81 页上的“数据准备部件”
6.1.3 应用算法
一旦获得分析的相关数据,用户需要应用合适的算法以决定数据的模式。 决定符合特定目的合适的算法有一定的难度。可以将一些算法组合起来使用以对数据进行分析。例 如,可以首先使用时间序列算法平滑数据,然后使用回归算法查找趋势。 针对特定目的选择何种算法,以下表格提供了这些信息:
25
2013-05-24
构建分析
执行基于时间的预 测
时间序列算法 • • • •
三次指数平滑 R 单一指数平滑 R 双指数平滑 R 三次指数平滑
根据数据集中的其 他变量预测连续变量。
回归算法
查找大型事务数据 集中频繁出现的项目集 模式以生成关联规则。
关联算法
根据观测的相似 性,将观测聚类为几组 类似的项目集
聚类算法
根据数据集中的其 他变量,将一个或更多 的离散变量分类并做分 析。
决策树
检测数据集中的异 常值
异常值检测算法
预测、分类和统计 模式识别
神经网络算法
• • • • • • • • • •
线性回归 指数回归 几何回归 对数回归 HANA 多元线性回归 R 线性回归 R 指数回归 R 几何回归 R 对数回归 R 多元线性回归
• HANA 先验 • R 先验
• HANA K-Means • K-Means
• HANA C 4.5 • R-CNR 树
• 四分位间距 • 最近邻居异常值
• R-NNet 神经网络 • R-MONMLP 神经网络
1。 在“预测”面板上,双击“算法”选项卡上所需的算法部件。 算法部件将添加到分析编辑器并连接到分析中的先前部件。
26
2013-05-24
构建分析
2。 右键单击该算法部件,然后选择“配置属性”。 3。 在部件属性对话框中,输入算法部件属性的必要详细信息。 4。 选择“保存并关闭”。 5。 要查看数据读取器部件、数据准备部件和算法的结果,请选择“
”。
相关主题 • 第 41 页上的“算法”
6.1.4 存储分析的结果
此步骤是可选的。 用户可以将分析的结果存储到平面文件或数据库中,以备将来使用数据写入部件进行分析。 1。 在“预测”面板的“数据写入器”选项卡上,双击所需的数据准备部件。 数据写入器部件将添加到分析编辑器并连接到分析中的先前部件。 2。 右键单击该数据写入器部件,然后选择“配置属性”。 3。 在部件属性对话框中,输入数据写入器部件属性的必要详细信息。 4。 选择“保存并关闭”。 5。 要查看数据读取器部件、数据准备部件、算法和数据写入器部件的结果,请选择“
”。
相关主题 • 第 101 页上的“数据写入器”
6.2 运行分析
27
2013-05-24
构建分析
要运行分析,选择分析编辑器工具栏上的“ “运行分析”。
”,或右键单击分析中的最后一个部件,然后选择
如果分析非常大而复杂,可以逐个部件地运行分析并分析数据。要运行部分分析,请选择分析编辑 器工具栏上的“ ”,或右键单击希望运行到的部件,然后选择“运行到此”。
6.3 保存分析
创建分析后,用户可以将其保存以备将来使用。在 SAP Predictive Analysis 中,用户需要保存文 档以保存相关的分析。该文档保存为 .SViD 文件格式。保存的文档包含用户创建的分析。 要将分析保存到文档,请执行以下步骤: 1。 选择“文件” > “保存”。 2。 为该文档输入名称。 3。 选择“保存”。 如果使用同一个数据集创建多个分析,那么这些分析将保存在同一个文档中。用户可以通过“更改”下 拉列表访问文档中的所有分析。 要将一个新的分析添加到文档,请选择分析工具栏上的“ 输入一个新的名称。要将现有的分析从文档中删除,请选择“
”。要重命名分析,请选择“ ”。
”并
6.4 查看结果
要查看分析中部件的结果,请在运行分析后右键单击此部件,然后选择“查看结果”。将显示“结 果”视图。
28
2013-05-24
分析数据
第 7 章 分析数据
成功执行分析后,分析中每个部件的结果都使用不同的可视化统计图表示。 要分析数据,请执行以下步骤: 1。 运行分析后,选择工具栏上的“结果”按钮切换到结果视图。 2。 在“部件选择器”窗格中,选择分析所需的部件以查看部件的可视化对象。 默认情况下,部件的结果显示在“网格”窗格中。用户可以切换到“统计图”窗格以查看相应可视化统 计图中部件的结果。此外,用户也可以在“可视化”窗格中构建自己的统计图。 以下表格汇总了部件及部件支持的可视化统计图。 部件
可视化统计图
数据读取器和数据准备
散点矩阵图、统计汇总图和平行坐标
聚类算法
簇图和算法概要
决策树
决策树、算法概要
时间序列算法
时间序列图、算法概要
回归算法
回归图、算法概要
7.1 可视化统计图
7.1.1 散点矩阵图
29
2013-05-24
分析数据
散点矩阵图是统计图(n*n 统计图,n 是选定特性的个数)的矩阵,用于比较不同维中的数据。默 认情况下,从源数据的第一个特性开始最多选择 4 个连续特性用于分析,然后绘制一个 4*4 的统计图 矩阵。但是,用户可以从“设置”选项中手动选择所需特性,然后选择“应用”以刷新可视化对象。 注意: 用户可以从“设置”选项的 4 个连续特性中选择最大的一个。
7.1.2 统计汇总图
统计汇总为数据源中的连续特性提供汇总信息。汇总信息包括计数、最小值、最大值、方差、标准 偏差、总和、平均值、范围和记录数。会为每一个特性绘制一个直方图。
7.1.3 平行坐标
30
2013-05-24
分析数据
平行坐标是一种可视化技术,用于可视化多维数据和数据中的多元模式以供分析。 在此统计图中,默认情况下前五个特性表示为垂直间隔的平行轴。要选择在此统计图中查看的特性 子集,请使用“设置”选项。每个轴都标记有特性名称以及特性的最小值和最大值。每个观测都表示为 沿平行轴的一系列连接点。用户可以根据选项选择颜色,以基于分类值对数据进行过滤。 注意: 用户可以在“设置”选项中选择 7 个连续特性中最大的一个。
7.1.4 决策树
决策树是一种可视化对象技术,用户可通过它将观测分类成组,并根据一组决策规则对将来的事件 进行预测。 本演示文稿演示对决策树的分析。此项技术通过将观测拆分成更小的子组(直到满足停止拆分的条 件)来创建二进制决策树。叶节点表示已分类的数据。可以选择放大按钮将决策树放大。 注意: • 如果从属列的分类值多于 32 个,应用程序将无法呈现决策树。 • 决策树的感观因算法供应商的不同而有所区别。例如,R-CNR 树算法的决策树与 HANA C4.5 算法的 决策树不同。
31
2013-05-24
分析数据
决策树的每个节点代表该级别的数据分类。可以选择每个节点上的
来查看节点内容。
7.1.5 回归图
回归图用于可视化相关变量和独立变量之间的相关性。在趋势模式中,相关变量表示为条形图,预 测值表示为折线图。可通过对实际相关变量和预测值进行比较来分析算法的性能。在填充模式中,算法 将填充缺少值,并将输出显示为条形图。
32
2013-05-24
分析数据
如果数据集非常大,图形可能不清楚。如果要改善数据的可见性,请使用图形底部的范围选择器从 该大型数据集中选择特定的数据范围。选定区域内的数据将显示在可视化对象编辑器中。 注意: 在多元线性回归(MLR)算法统计图可视化对象中,x 轴特性作为“记录 ID”提及。
7.1.6 时间序列图
时间序列图可使用户将与算法的拟合值或预测值比较的时间序列数据可视化。用户可以使用该图查 看在特定期间内预测的数据。在趋势模式下,相关变量表示为条形图,趋势值表示为折线图。在预测模 式下,相关变量表示为条形图,预测值表示为折线图。
如果数据集非常大,图形可能不清楚。如果要改善数据的可见性,请使用图形底部的范围选择器从 该大型数据集中选择特定的数据范围。选定区域内的数据将显示在可视化对象编辑器中。
33
2013-05-24
分析数据
7.1.7 簇图
簇图形是一种可视化对象技术,它使用不同的统计图表示簇信息,如簇大小、簇密度和距离、簇变 量比较和簇比较。 注意: 如果使用 HANA K-Means 算法聚类观测,那么只有簇大小和簇变量比较信息可以用统计图表示。
簇大小 簇大小指每个簇中的元素个数,由水平条形图表示。不过,用户也可以通过饼图或垂直条形图将簇 大小可视化。 簇密度和距离 簇间的距离以及每个簇的密度由网络图表示。网络中的每个节点代表一个簇及其大小。节点的颜色 代表密度。可以选择 将网络图放大。 簇变量比较 所有簇的总分布与每个簇的分布的比较由直方图表示。可以从变量下拉列表中选择簇的所需特性, 然后使用滑块更改簇。 簇比较 R-K Means 算法计算每个簇的每个输入特性的中心点。每个中心点和簇的比较由雷达图表示。可以 选择“规范化结果”选项查看带有规范化数据的统计图。在规范化模式下,数据的表示范围介于 0 到 1 之间。
7.1.8 先验标签云图
34
2013-05-24
分析数据
先验标签云图使用户可根据关联规则可视化和查找频率明显区别于其他项目的项目。在此可视化统 计图中,最显著的规则会在最大程度上突出显示。规则的显著程度视其置信度值和提升值而异。置信度 值越高,规则的颜色越深;提升值越高,规则的字体越大。可通过调节相应的范围滑尺更改支持值、置 信度值和提升值。
7.1.9 分类/误分类矩阵图
分类/误分类矩阵图包含有关实际分类和算法所得的预测分类的信息,可用于可视化准确度。如果将 CNR 树算法的输出方法选择为“分类”,将其输出模式选择为“趋势”,则可以查看此统计图。此统计 图为 n*n 的矩阵(其中 n 表示为算法选择的从属列中存在的非重复值),将每个预测值的出现次数与 实际值对应比较。位于矩阵对角线上的条目表示正确的预测。偏离矩阵对角线的条目表示误分类。
35
2013-05-24
使用模型
第 8 章 使用模型
模型是使用历史数据对算法进行培训并保存实例而创建的可重用部件。 通常,用户由以下原因创建模型: • 分享可以应用到相似数据的已计算的业务规则 • 通过使用算法的已培训实例,在不使用历史数据的情况下快速分析结果。
8.1 在进程内(In-Proc)分析中创建模型
要创建模型,用户需要保存算法的状态。 1。 从所需的数据源中获取数据。 数据源部件已添加到“预测”面板中的分析编辑器中。 2。 在“预测”面板上,双击所需的 R 算法部件。 3。 右键单击该算法部件,然后选择“配置属性”。 4。 在对话框中编辑算法属性。 a。 输入必要的算法属性的值。 b。 在“模型信息”下,选择“保存模型”。 c。 输入模型的名称和说明。 d。 如果希望用新模型覆盖现有模型,请选择“覆盖(如果存在)”。 e。 选择“保存并关闭”。 5。 选择“
”。
模型将被创建并显示在“保存的模型”选项卡上。可以使用该模型(像其他任何部件一样)创建分析。 注意: 在模型计分中使用的独立列名称应与创建模型时使用的独立列名称一致。
8.2 在 HANA 数据库内(In-DB)分析中创建模型
36
2013-05-24
使用模型
要创建模型,用户需要保存算法的状态。 1。 从所需的数据源中获取数据。 数据源部件已添加到“预测”面板中的分析编辑器中。 2。 在“预测”面板上,双击所需的 HANA R 算法或 HANA 算法部件。 3。 右键单击该算法部件,然后选择“配置属性”。 4。 在对话框中编辑算法属性。 a。 输入必要的算法属性的值。 b。 选择“保存并关闭”。 5。 选择“
”。 6。 右键单击该算法部件,然后选择“另存为模型”。将出现“保存模型”窗口。 a。 在“保存模型”窗口中,输入模型名称和描述。 b。 如果希望用新模型覆盖现有模型,请选择“覆盖(如果存在)”。 7。 单击“保存”。 模型将被创建并显示在“保存的模型”选项卡上。可以使用该模型(像其他任何部件一样)创建分析。 注意: 在模型计分中使用的独立列名称应与创建模型时使用的独立列名称一致。
8.3 查看模型信息
模型信息包括以下内容: • 列的详细信息,如生成模型时使用了哪些列 • 算法的概要 这一信息可帮助数据分析员理解模型的结构。 要查看模型信息,请执行以下步骤: 1。 在“预测”面板的“保存的模型”选项卡上双击所需的模型。 只有当模型已保存在资源库中,“保存的模型”选项卡才会出现。 2。 右键单击该模型,然后选择“查看模型信息”。 将显示生成模型时选择的算法的相应可视化对象。
8.4 将模型导出为 PMML
37
2013-05-24
使用模型
用户可以将模型信息导出到一个业界标准的预测模拟标记语言(PMML)格式本地文件中,并与其他 PMML 兼容应用程序共享该模型以执行相似数据的分析。 要将模型导出为 PMML 格式,请执行以下步骤: 1。 创建模型。 2。 在“预测”面板的“保存的模型”选项卡上双击所需的模型。 3。 右键单击该模型,然后选择“导出为 PMML”。 4。 为该文件输入名称。 5。 根据要求选择文件类型(PMML 或 XML)。 6。 选择“保存”。
8.5 将模型导出为 .spar 文件
可以将在 SVID 文档中创建的模型导出为 .spar 文件,然后通过导入该文件以在另一个 SVID 文档中 使用。 要导出模型,请执行以下步骤: 1。 创建模型。 2。 右键单击该模型,然后选择“导出模型”。 3。 为该 .spar 文件输入名称。 4。 选择“保存”。
8.6 将 SAP HANA PAL 模型导出为存储过程
可以在 SAP HANA 数据库中将已保存的 SAP HANA PAL 模型导出为存储过程并使用。确保您的帐户 已在 SAP HANA 中定义。 要将 SAP HANA 模型导出为存储过程,请执行以下步骤: 1。 创建模型。 2。 在“预测”面板中,选择“保存的模型”选项卡。 3。 在“保存的模型”选项卡中,右键单击所需模型并选择“导出模型”。 将出现“将模型导出为”属性视图。 4。 在“将模型导出为”属性视图中,选择“SAP HANA 存储过程”,然后选择“下一步”。 将出现“选择模型”属性视图。
38
2013-05-24
使用模型
5。 在“选择模型”中的“选择模式名称”下,选择过程显示应采用的所需模式。 6。 在“输入过程名称”中,指定过程的名称。 注意: 如果要在选定的模式中覆盖同名的现有过程,请选中“如果存在名称,则覆盖”。 导出的过程和该过程的关联对象(表/类型)将显示在于 SAP HANA 数据库中选定的模式下。
8.6.1 将导出的存储过程从 SAP HANA 中删除
可以使用 SAP HANA 工作室将导出的存储过程从 SAP HANA 中删除。确保您的帐户已在 SAP HANA 中定义。 要将导出的存储过程从 SAP HANA 中删除,请执行以下步骤: 1。 在 SAP HANA 工作室中,导航到导出的过程。 注意: 可以在“过程”文件夹下找到导出的过程。 2。 双击该过程并选择“Open Definition”(打开定义)。 将出现“Definition”(定义)选项卡。 3。 在“Definition”(定义)选项卡下,选择“Create Statement”(创建语句)选项卡。 4。 在“Create Statement”(创建语句)选项卡中,复制 SQL 注释(前面带双连字符“--”的命令)。 5。 在“Navigator”(导航器)选项卡中,右键单击此过程,然后选择“SQL Console”(SQL 控制 台)。 将出现“SQL Console”(SQL 控制台)选项卡。 6。 在“SQL Console”(SQL 控制台)中,粘贴此 SQL 注释并单击“Execute”(执行),或按 F8。 注意: 确保在执行注释前删除 SQL 注释前面的双连字符(--)。
8.7 导入模型
可以通过从 .spar 文件导入将在某个 SVID 文档中创建的模型在另外一个 SVID 文档中重新使用。
39
2013-05-24
使用模型
要导入模型,请执行以下步骤: 1。 启动 SAP Predictive Analysis。 2。 在“预测”窗格中,选择“导入模型”。 3。 选择有效的 .spar 文件,然后选择“打开”。 模型将被导入并显示在“保存的模型”选项卡上。
8.8 删除模型
我们建议谨慎使用该选项,因为删除模型可能会使包含模型参考的分析不可用。 要删除模型,请执行以下步骤: 1。 在“预测”面板中,选择“保存的模型”选项卡。 2。 右键单击所需模型,然后选择“删除”。
40
2013-05-24
部件属性
第 9 章 部件属性
9.1 算法
可以使用算法对数据进行数据挖掘和统计分析。例如,确定数据的趋势和模式。 SAP Predictive Analysis 可提供内置算法,如回归、时间序列和异常值。此外,该此应用程序还 支持来自开源 R 库的决策树、K-means、神经元网络、时间序列和回归算法。还可以使用 SAP HANA 的 Predictive Analysis 库(PAL)算法执行数据库内分析。
9.1.1 回归
9.1.1.1 HANA 指数回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。它确定单个变量如何利用指数函数影响 另一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。
41
2013-05-24
部件属性
HANA 指数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
预测列的名称
为新创建的包含预测值的列输入名称。
线程数
输入可用于执行的线程数。
9.1.1.2 HANA 几何回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。它确定单个变量如何利用几何函数影响 另一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA 几何回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
42
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
2013-05-24
部件属性
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
预测列的名称
为新创建的包含预测值的列输入名称。
线程数
输入可用于执行的线程数。
9.1.1.3 HANA 多元线性回归
使用此算法可查找一个相关变量与一个或多个独立变量之间的线性关系。 HANA 多元线性回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
预测列的名称
为新创建的包含预测值的列输入名称。
线程数
输入可用于执行的线程数。
9.1.1.4 HANA 对数回归
43
2013-05-24
部件属性
使用此算法可查找数据中的趋势。此算法可执行双变量对数回归分析。它确定单个变量如何利用 PAL (Predictive Analysis 库)对数函数影响另一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA 对数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
预测列的名称
为新创建的包含预测值的列输入名称。
线程数
输入可用于执行的线程数。
9.1.1.5 HANA 多项式回归
使用该算法可以在曲线拟合线中查找独立变量和从属变量之间的关系。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA 多项式回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
44
独立列
选择希望用于执行回归的输入源列。
多项式的次数
输入多项式表达式的最大指数值。
2013-05-24
部件属性
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
预测列的名称
为新创建的包含预测值的列输入名称。
线程数
输入可用于执行的线程数。
9.1.1.6 HANA 逻辑回归
如果独立变量为分类值或连续值和分类值的混合,则使用此算法。逻辑回归是一种与最小二乘法(OLS) 回归类似的预测方法。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA 逻辑回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
方法
该属性使用牛顿迭代法。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
45
显示拟合值
选择此选项以在新列中查看拟合值。
预测列的名称
为新创建的包含预测值的列输入名称。
拟合值
指定新列的名称,此新列包含拟合值。
最大迭代数
输入计算算法系数允许的最大迭代数。
2013-05-24
部件属性
退出阈值
输入从迭代数退出的阈值。
线程数
输入可用于执行的线程数。
9.1.1.7 R 指数回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用 R 开源库中的指数函数决 定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 R 指数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
允许单一拟合
布尔型值 - 如果设为真,系数协方差矩阵会忽略别名系数。如果设为 假,带有别名系数的模型会产生错误。 带有别名系数的模型表示方阵 x*x 是单一的。
对比 保存模型 预测列的名称
46
选择对比的列表,这些对比将用在模型中显示为变量的因素上。 如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。 为新创建的包含预测值的列输入名称。
2013-05-24
部件属性
9.1.1.8 R 几何回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用 R 开源库中的几何函数决 定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 R 几何回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
允许单一拟合
布尔型值 - 如果设为真,系数协方差矩阵会忽略别名系数。如果设为 假,带有别名系数的模型会产生错误。 带有别名系数的模型表示方阵 x*x 是单一的。
对比 保存模型 预测列的名称
选择对比的列表,这些对比将用在模型中显示为变量的因素上。 如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.9 R 线性回归
47
2013-05-24
部件属性
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用 R 开源库决定个体变量如 何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 R 线性回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
允许单一拟合
布尔型值 - 如果设为真,系数协方差矩阵会忽略别名系数。如果设为 假,带有别名系数的模型会产生错误。 带有别名系数的模型表示方阵 x*x 是单一的。
对比 保存模型 预测列的名称
选择对比的列表,这些对比将用在模型中显示为变量的因素上。 如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.10 R 对数回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用 R 开源库中的对数函数决 定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。
48
2013-05-24
部件属性
R 对数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
允许单一拟合
布尔型值 - 如果设为真,系数协方差矩阵会忽略别名系数。如果设为 假,带有别名系数的模型会产生错误。 带有别名系数的模型表示方阵 x*x 是单一的。
对比 保存模型
选择对比的列表,这些对比将用在模型中显示为变量的因素上。 如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。
预测列的名称
为新创建的包含预测值的列输入名称。
9.1.1.11 R 多元线性回归
使用此算法可查找一个相关变量与一个或多个独立变量之间的线性关系。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 R 多元线性回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
49
2013-05-24
部件属性
独立列
选择希望用于执行回归的输入源列。
从属列
选择需执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
置信度 保存模型 预测列的名称
输入算法的置信度(预测的准确性)。 如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为 该模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.12 HANA R 多元线性回归
使用此算法可查找一个相关变量与一个或多个独立变量之间的线性关系。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA R 多元线性回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择需执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会删除独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
置信度
50
输入算法的置信度(预测的准确性)。
2013-05-24
部件属性
预测列的名称
为新创建的包含预测值的列输入名称。
9.1.1.13 指数回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用使用最小二乘法的指数函数 决定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 指数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择需执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
保存模型 预测列的名称
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为 该模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.14 几何回归
51
2013-05-24
部件属性
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用使用最小二乘法的几何函数 决定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 几何回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择需执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
保存模型 预测列的名称
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为 该模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.15 线性回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用最小二乘法决定个体变量如 何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 线性回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
52
2013-05-24
部件属性
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
保存模型 预测列的名称
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。 为新创建的包含预测值的列输入名称。
9.1.1.16 对数回归
使用此算法可查找数据中的趋势。此算法可执行一元回归分析。该算法利用使用最小二乘法的对数函数 决定个体变量如何影响另外一个变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 对数回归属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 填充:填充目标列中的缺少值。 • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。
独立列
选择希望用于执行回归的输入源列。
从属列
选择希望执行回归的目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
保存模型
53
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。
2013-05-24
部件属性
预测列的名称
为新创建的包含预测值的列输入名称。
9.1.2 异常值
9.1.2.1 HANA 异常检测
使用该算法可查找数据行为异常的模式。 注意: 不支持使用 HANA 异常检测算法创建模型。 HANA 异常检测属性 输出模式
选择希望的显示输出数据的模式。
独立列
选择输入的源列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:算法忽略计算期间包含缺少值的记录。但是,记录会保 留在结果表中。
54
异常值百分比
输入该值以表示异常在源数据中的比例。
组号
输入值以确定簇数。
检测类型
选择该值以表示源数据中的异常类型。
最大迭代数
输入允许用于查找簇的迭代数。
中心计算方法
选择用于计算初始聚类中心的方法。
规范化
要对数据进行规范化处理,请选择“真”。
簇数
输入聚类的组数。
线程数
输入可用于执行的线程数。
退出阈值
输入从迭代数退出的阈值。
2013-05-24
部件属性
距离计算
输入计算项目与簇中心之间距离的方法。
预测列的名称
输入新列的名称,此新列包含预测值。
9.1.2.2 HANA 四分位间距测试
使用此算法可根据第一四分位数与第三四分位数之间的统计分布查找异常值。 注意: • IQR(四分位间距)测试算法的输入数据必须至少为 4 行。 • 不支持使用 HANA 四分位间距测试算法创建模型。 HANA 四分位间距测试属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 显示异常值:为输入数据添加一个布尔型列,该列指明对应的值是 否是异常值。 • 删除异常值:将异常值从输入数据中删除。
独立列
选择输入的源列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
合围系数
输入四分位间距中值的允许偏差。
预测列的名称
输入新列的名称,此新列包含预测值。
9.1.2.3 四分位间距
使用此算法可根据第一四分位数与第三四分位数之间的统计分布查找异常值。
55
2013-05-24
部件属性
注意: • IQR(四分位间距)算法的输入数据必须至少为 4 行。 • 不支持使用 IQR(四分位间距)算法创建模型。 四分位间距属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 显示异常值:为输入数据添加一个布尔型列,该列指明对应的值是否 是异常值。 • 删除异常值:将异常值从输入数据中删除。
独立列
选择输入的源列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
合围系数
输入四分位间距中值的允许偏差。
预测列的名称
输入新列的名称,此新列包含预测值。
9.1.2.4 最近邻居异常值
使用此算法可根据邻居的数量(N)和值之间的平均距离(与最近的 N 个邻居相比)查找异常值。 注意: 不支持使用最近邻居异常值创建模型。 最近邻居异常值属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 显示异常值:为输入数据添加一个布尔型列,该列指明对应的值是 否是异常值。 • 删除异常值:将异常值从输入数据中删除。
独立列
56
选择输入的源列。
2013-05-24
部件属性
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
邻居计数
输入四分位间距中值的允许偏差。
异常值数
输入要删除的异常值数。
预测列的名称
输入新列的名称,此新列包含预测值。
9.1.2.5 HANA 方差测试
HANA 方差测试可识别一组数值数据中的异常值。数据的下边界和上边界根据用户提供的数据的平均值 和标准偏差以及乘数值来计算。 乘数是用户提供的双精度类型系数,帮助测试数字矢量的所有值是否都在范围内。 如果某个值在范围外,则认为该值不通过方差测试。因此,该值将被标记为异常值。 注意: 不支持使用 HANA 异常检测算法创建模型。 HANA 方差测试属性 输出模式
选择希望的显示输出数据的模式。
独立列
选择输入的源列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:算法忽略计算期间包含缺少值的记录。但是,记录会保留在结 果表中。
乘数
输入乘数值以确定下边界和上边界的范围,这有助于识别异常值。 注意: 输入值必须是一个正整数。
线程数
57
输入可用于执行的线程数。
2013-05-24
部件属性
9.1.3 时间序列
9.1.3.1 HANA 单一指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。 注意: 不支持使用 HANA 单一指数平滑算法创建模型。 HANA 单一指数平滑属性 输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择输入列以执行时间序列分析。
期间
选择用于预测的期间。
每年的期间数
58
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启 用此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。只有输出模式为“预测”时方可使用该值。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
2013-05-24
部件属性
9.1.3.2 HANA 双指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。 注意: 不支持使用 HANA 双指数平滑算法创建模型。 HANA 双指数平滑属性 输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择输入列以执行时间序列分析。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启 用此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。只有输出模式为“预测”时方可使用该值。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
9.1.3.3 HANA 三次指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。
59
2013-05-24
部件属性
注意: 不支持使用 HANA 三次指数平滑算法创建模型。 HANA 三次指数平滑属性 输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择输入列以执行时间序列分析。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启 用此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。只有输出模式为“预测”时方可使用该值。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
Gamma
输入用于查找季节趋势参数的平滑常量。
9.1.3.4 HANA R 三次指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。 HANA R 三次指数平滑属性
60
输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择输入列以执行时间序列分析。
2013-05-24
部件属性
期间 每年的期间数
选择用于预测的期间。 选择用于预测的期间。只有将“期间”选择为“自定义”时方可启用 此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。只有输出模式为“预测”时方可使用该值。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
Gamma
输入用于查找季节趋势参数的平滑常量。
季节性
选择 HoltWinters 指数平滑算法的类型。
置信度
输入算法的置信度(预测的准确性)。
定期观测数
输入启动计算所需要的定期观测数。
级别
输入用于查找级别的起始值(a[0])(l.start)。例如:0.4
趋势
输入用于查找趋势参数的起始值(b[0])(b.start)。例如:0.4
季节
输入用于查找季节性参数的起始值(s.start)。此值取决于选择的 期间。例如,如果将期间选择为季度,则需要提供四对值。
优化器输入
输入优化器要求的 alpha、beta 和 gamma 的起始值。例如:0.3、 0.1、0.1
9.1.3.5 R 单一指数平滑
使用此算法可平滑源数据。 注意: 不支持使用 R 单指数平滑算法创建模型。
61
2013-05-24
部件属性
R 单一指数平滑属性 输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择要预测的输入列。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启 用此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
置信度
输入算法的置信度(预测的准确性)。
定期观测数
输入启动计算所需要的定期观测数。
级别
输入用于查找级别的起始值(a[0])(l.start)。例如:0.4
9.1.3.6 R 双指数平滑
使用此算法可平滑源数据并查找数据中的趋势。 注意: 不支持使用 R 双指数平滑算法创建模型。 R 双指数平滑属性 输出模式
62
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
2013-05-24
部件属性
从属列
选择要预测的输入列。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启 用此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
置信度
输入算法的置信度(预测的准确性)。
定期观测数
输入启动计算所需要的定期观测数。
级别
输入用于查找级别的起始值(a[0])(l.start)。例如:0.4
趋势
输入用于查找趋势参数的起始值(b[0])(b.start)。例如:0.4
优化器输入
输入优化器要求的 alpha、beta 和 gamma 的起始值。例如:0.3、 0.1、0.1
9.1.3.7 R 三次指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。 注意: 不支持使用 R 三次指数平滑算法创建模型。 R 三次指数平滑属性 输出模式
63
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
2013-05-24
部件属性
从属列
选择要预测的输入列。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启用 此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
Gamma
输入用于查找季节趋势参数的平滑常量。
季节性
选择 HoltWinters 指数平滑算法的类型。
置信度
输入算法的置信度(预测的准确性)。
定期观测数
输入启动计算所需要的定期观测数。
级别
输入用于查找级别的起始值(a[0])(l.start)。例如:0.4
趋势
输入用于查找趋势参数的起始值(b[0])(b.start)。例如:0.4
季节
输入用于查找季节性参数的起始值(s.start)。此值取决于选择的 期间。例如,如果将期间选择为季度,则需要提供四对值。
优化器输入
输入优化器要求的 alpha、beta 和 gamma 的起始值。例如:0.3、 0.1、0.1
9.1.3.8 三次指数平滑
使用此算法可平滑源数据并查找数据中的季节趋势。
64
2013-05-24
部件属性
三次指数平滑属性 输出模式
选择希望的显示输出的模式。 • 趋势:显示源数据和给定数据集的预测值。 • 预测:显示给定时间段的预测值。
从属列
选择要预测的输入列。
考虑日期列
选择此选项以指定是否使用日期列。
日期列
输入包含日期值的列的名称。
缺少值
选择用于处理缺失条目的方法。 • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
期间
选择用于预测的期间。
每年的期间数
选择用于预测的期间。只有将“期间”选择为“自定义”时方可启用 此选项。
起始年份
输入必须考虑观测的起始年份。例如,2009、1987、2019。
起始期间
输入必须考虑观测的起始期间。
要预测的期间
输入要预测的期间数。
保存模型
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要 为该模型输入名称和说明。
预测列的名称
为新创建的包含预测值的列输入名称。
年份值
为新创建的包含年份值的列输入名称。
季度值
为新创建的包含季度值的列输入名称。
月份值
为新创建的包含月份值的列输入名称。
期间值
为新创建的包含期间值的列输入名称。
Alpha
输入平滑观测的平滑常量(基本参数)。范围:0-1。
Beta
输入用于查找趋势参数的平滑常量。范围:0-1。
Gamma
输入用于查找季节趋势参数的平滑常量。范围:0-1。
9.1.4 决策树
65
2013-05-24
部件属性
9.1.4.1 HANA C 4.5
使用此算法可将观测分类成组,并根据其他变量预测一个或更多离散变量。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。 HANA C 4.5 属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。 注意: 该属性仅接受数据类型是整数的列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
百分比
输入考虑对其进行分析的数据的百分比。
最小拆分
输入不允许叶节点拆分超出的记录数。
列名称
输入包含数值的独立列的名称。
输入箱范围
输入箱范围。
预测列的名称
输入新列的名称,此新列包含预测值。
线程数
输入用于执行的线程数。
9.1.4.2 HANA R-CNR 树
66
2013-05-24
部件属性
使用此算法可将观测分类成组,并根据其他变量预测一个或更多离散变量。此外,用户也可以使用此算 法查找数据的趋势。 注意: • “rpart”包是 R 2.15 的一部分,不能处理名称中有空格或特殊字符的列。“rpart”包仅支持 由 R 数据框架支持的输入列名称格式。 • 在模型计分中使用的独立列名称应与创建模型时使用的独立列名称一致。 • 不支持包含空格或其他任何特殊字符(句点(.)除外)的列名称。 HANA R-CNR 树属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
方法
选择拆分规则类型。 可能的值: • 分类:使用此方法(如果从属变量含有分类值)。 • 回归:使用此方法(如果从属变量含有连续值)。
最小拆分
输入拆分节点所需的最小观测数。
拆分条件
选择节点的拆分条件。 可能的值: • 基尼:基尼不纯度。 • 信息:信息获取。
保存模型 预测列的名称 复杂度参数
67
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。 为新创建的包含预测值的列输入名称。 输入可节省计算时间(通过阻止所有无法改善拟合的拆分)的复杂度参 数。
2013-05-24
部件属性
最大深度
输入节点在最终树中的最高级别,其中根节点级别计为 0。 注意: 如果最大深度大于 30,则算法不会按照期望产生结果(在 32 位计算机 上)。
交叉验证
输入交叉验证的数目。较高的交叉验证值会增加计算时间并产生更多准确 结果。
先验概率
输入先验概率的矢量。
使用替代
选择在拆分过程中使用的替代。 可能的值: • 仅显示 - 针对主要拆分规则的含有缺少值的观测不会再往树的更深处 发送。 • 使用替代 - 使用此选项拆分缺少主要变量的主题;如果所有替代都缺 失,将不会拆分观测。 • 如果缺失,则停止 - 如果所有替代都缺失,将把观测往多数方向发 送。
替代样式
输入样式,该样式控制最佳替代的选择。 可能的值: • 使用总体正确分类 - 算法使用总的正确分类数查找潜在的替代变量。 • 使用非缺失用例的百分比 - 算法使用已分类的非缺失用例的百分比查 找潜在替代。
最大替代数
输入最大替代数,该替代数保留在树中的每个节点上。
显示概率
选择“显示概率”复选框可在对分类模型计分期间,获得预测值的概率。
9.1.4.3 HANA CHAID
CHAID 表示卡方自动交互检测(CHi-squared Automatic Interaction Detection)。CHAID 是一种创 建决策树的分类方法,它使用卡方统计识别最佳拆分。 注意: 在模型计分中使用的列的数据类型应与构建模型时使用的列的数据类型一致。
68
2013-05-24
部件属性
HANA CHAID 属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。 注意: 该属性仅接受数据类型是整数的列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
百分比
输入考虑对其进行分析的数据的百分比。
最小拆分
输入节点的最小记录数,该特定节点的拆分不允许超出此记录数。
列名称
输入包含数值的独立列的名称。
输入箱范围
输入箱范围。
预测列的名称
输入新列的名称,此新列包含预测值。
线程数
输入用于执行的线程数。
9.1.4.4 R-CNR 树
使用此算法可将观测分类成组,并根据其他变量预测一个或更多离散变量。此外,用户也可以使用此算 法查找数据的趋势。 注意: • “rpart”包是 R 2.15 的一部分,不能处理名称中有空格或特殊字符的列。“rpart”包仅支持 由 R 数据框架支持的输入列名称格式。 • 在模型计分中使用的独立列名称应与创建模型时使用的独立列名称一致。 • 不支持包含空格或其他任何特殊字符(句点(.)除外)的列名称。
69
2013-05-24
部件属性
R-CNR 树属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。
缺少值
选择处理缺少值的方法。 可能的值: • Rpart:算法删除所有缺少从属列的观测。但是,算法保留缺少一个或 更多独立列的观测。 • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:保留缺少值。 • 停止:算法停止执行(如果独立列或从属列中缺少一个值)。
方法
选择拆分规则类型。 可能的值: • 分类:使用此方法(如果从属变量含有分类值)。 • 回归:使用此方法(如果从属变量含有连续值)。
最小拆分
输入拆分节点所需的最小观测数。
拆分条件
选择节点的拆分条件。 可能的值: • 基尼:基尼不纯度。 • 信息:信息获取。
保存模型
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为该 模型输入名称和说明。
预测列的名称
为新创建的包含预测值的列输入名称。
复杂度参数
输入可节省计算时间(通过阻止所有无法改善拟合的拆分)的复杂度参数。
最大深度
输入节点在最终树中的最高级别,其中根节点级别计为 0。 注意: 如果最大深度大于 30,则算法不会按照期望产生结果(在 32 位计算机 上)。
交叉验证 先验概率
70
输入交叉验证的数目。较高的交叉验证值会增加计算时间并产生更多准确 结果。 输入先验概率的矢量。
2013-05-24
部件属性
使用替代
选择在拆分过程中使用的替代。 可能的值: • 仅显示 - 针对主要拆分规则的含有缺少值的观测不会再往树的更深处 发送。 • 使用替代 - 使用此选项拆分缺少主要变量的主题;如果所有替代都缺 失,将不会拆分观测。 • 如果缺失,则停止 - 如果所有替代都缺失,将把观测往多数方向发 送。
替代样式
输入样式,该样式控制最佳替代的选择。 可能的值: • 使用总体正确分类 - 算法使用总的正确分类数查找潜在的替代变量。 • 使用非缺失用例的百分比 - 算法使用已分类的非缺失用例的百分比查 找潜在替代。
最大替代数
输入最大替代数,该替代数保留在树中的每个节点上。
显示概率
选择“显示概率”复选框可在对分类模型计分期间,获得预测值的概率。
9.1.5 神经网络
9.1.5.1 R-MONMLP 神经网络
此算法可利用 R 库函数进行预测、分类和统计模式识别。 注意: R 不支持对 MONMLP 神经网络进行 PMML 存储。
71
2013-05-24
部件属性
R-MONMLP 神经网络属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外 列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。
隐藏层 1 神经元
输入第一个隐藏层(hidden1)中的节点/神经元数。
保存模型
如果用户希望保存算法的状态,请选择此选项。若要保存,用 户需要为该模型输入名称和说明。
预测列的名称
为新创建的包含预测值的列输入名称。
隐藏层传输函数
选择用于隐藏层(Th)的激活函数。
输出层传输函数
选择用于输出层(To)的激活函数。
隐藏层传输函数的派生类型
选择隐藏层激活函数的派生类型(Th.prime)。
输出层传输函数的派生类型
选择输出层激活函数的派生类型(To.prime)。
隐藏层 2 神经元
输入第二个隐藏层(hidden2)中的节点/神经元数。
最大迭代数
输入优化算法的最大迭代数(iter.max)。
单调列
输入要将单调约束应用到的列索引(monotone)。
训练迭代数
输入成本函数计算停止之后的训练迭代数(iter.stopped)。
初始权重
输入初始权重矢量(init.weights)。
最大异常数
输入优化例程的最大异常数(max.exceptions)。
按比例缩放依赖列
在拟合之前,要将从属列缩放至零均值和单位方差,请选择 “真”(scale.y)。
要求自举聚合
选择“真”可使用自举聚合(bag)。
用于避免局部极小值的试验
输入为避免局部极小值而重复试验的次数(n.trials)。
集成成员数
输入要拟合的集成成员数(n.ensemble)。
9.1.5.2 R-NNet 神经网络
此算法可利用 R 库函数进行预测、分类和统计模式识别。
72
2013-05-24
部件属性
R-NNet 神经网络属性 输出模式
选择希望的显示输出数据的模式。 可能的值: • 趋势:预测从属列的值,并添加一个包含预测值输出的额外列。 • 填充:填充目标列中的缺少值。
独立列
选择输入的源列。
从属列
选择目标列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:算法保留缺少值,以供处理。 • 停止:算法停止(如果独立列或从属列中缺少一个值)。
隐藏层神经元
输入隐藏层中的节点/神经元数。
预测列的名称
为新创建的包含预测值的列输入名称。
类型
选择要由算法执行的分析的类型。
跳过隐藏层
要将跳层连接从输入添加到输出,请选择“真”。
线性输出 使用 Softmax
要获得线性输出,请选择“真”。如果选择分析类型分类,该值必须为 真。 要使用“对数线性模型”和“最大条件似然”拟合,请选择“真”。 线性输出、熵、softmax 和删失数据之间互斥。
使用熵
要使用“最大条件似然”拟合,请选择“真”。默认情况下,算法使用 “最小二乘法”方法。 可能的值: • 真:使用“最大条件似然”拟合 • 假:使用“最小二乘法”方法
使用删失数据
范围
73
对于 Softmax,(0,1,1)的一行表示类 2 和类 3 各自的一个例子, 但对于删失数据则表示类 2 或类 3 各自的一个例子。 输入初始随机权重 [-rang, rang]。将值设为 0.5,除非输入的权重较 大。如果输入的权重较大,请使用公式 rang * max(|x|) <= 1 选择 rang。
权重衰减
输入用于计算新权重的值(weight decay)。
最大迭代数
输入允许的迭代数的最大数量。
需要 Hessian 矩阵
要返回最佳权重集合上的 Hessian 度量,请选择“真”。
2013-05-24
部件属性
最大权重数
输入计算中允许的最大权重数。 代码无内部限制,但是增加权重的最大数目可能允许非常慢且耗时的拟 合。
Abstol
输入表示完全拟合的值(abstol)。
Reltol
如果优化器无法按因数 1 - Reltol 缩减拟合条件,则该算法终止。
对比
输入对比的列表,这些对比将用在模型中显示为变量的因素上。
保存模型
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需要为 该模型输入名称和说明。
9.1.6 聚类
9.1.6.1 HANA K-Means
在事先不知道观测之间关系的情况下,使用此算法可将观测按其相关性聚类为几组相关的观测。算法将 观测群聚类为 k 个组,k 作为输入参数提供。然后,算法根据观测与簇平均值之间的邻近程度将每个 观测分配到簇。这种处理持续到簇收敛。 注意: • 每次执行 HANA K-Means 算法时,您可能获得针对每个簇的不同的簇编号。但是,每个簇中的观 测保持不变。 • 不支持使用 HANA K-Means 算法创建模型。 HANA K-Means 属性
74
输出模式
选择希望的显示输出数据的模式。
独立列
选择输入的源列。
2013-05-24
部件属性
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:算法忽略计算期间包含缺少值的记录。但是,记录会保留 在结果表中。 • 停止:算法停止(如果独立列或从属列中缺少一个值)。
簇数
输入聚类的组数。
簇名称
为新创建的包含簇名称的列输入名称。
最大迭代数
输入允许用于查找簇的迭代数。
中心计算方法
选择用于计算初始聚类中心的方法。
距离计算
输入计算项目与簇中心之间距离的方法。
规范化
要对数据进行规范化处理,请选择“真”。
线程数
输入可用于执行的线程数。
退出阈值
输入从迭代数退出的阈值。
9.1.6.2 HANA R-K-Means
在事先不知道观测之间关系的情况下,使用此算法可将观测按其相关性聚类为几组相关的观测。算法将 观测聚类为 k 个组,k 作为输入参数提供。然后,算法根据观测与簇平均值之间的邻近程度将每个观 测分配到簇。这种处理将持续到簇收敛。 注意: • 每次执行 R-K-Means 算法时,您可能获得针对每个簇的不同簇编号。但是,每个簇中的观测保 持不变。 • 不支持使用 HANA R-K-Means 算法创建模型。 HANA R-K-Means 属性
75
输出模式
选择希望的显示输出数据的模式。
独立列
选择输入的源列。
簇数
输入聚类的组数。
簇名称
为新创建的包含簇名称的列输入名称。
最大迭代数
输入允许用于查找簇的迭代数。
初始集数
输入聚类的随机初始集数(n start)。
2013-05-24
部件属性
算法
选择算法的类型,该算法用于执行 K-Means 聚类。
9.1.6.3 R-K-Means
在事先不知道观测之间关系的情况下,使用此算法可将观测按其相关性聚类为几组相关的观测。算法将 观测群聚类为 k 个组,k 作为输入参数提供。然后,算法根据观测与簇平均值之间的邻近程度将每个 观测分配到簇。这种处理持续到簇收敛。 注意: • 每次执行 R-K-Means 算法时,您可能获得针对每个簇的不同簇编号。但是,每个簇中的观测保 持不变。 • 不支持使用 R-K-Means 算法创建模型。 R-K-Means 属性 输出模式
选择希望的显示输出数据的模式。
独立列
选择输入的源列。
簇数
输入聚类的组数。
簇名称
为新创建的包含簇名称的列输入名称。
最大迭代数
输入允许用于查找簇的迭代数。
初始集数
输入聚类的随机初始集数(n start)。
算法
选择算法的类型,该算法用于执行 K-Means 聚类。
9.1.7 关联
9.1.7.1 HANA 先验
76
2013-05-24
部件属性
使用此算法可查找大型事务数据集中常用的项目集模式以生成关联规则。可利用此算法理解客户会 倾向同时购买哪些产品和服务。可以通过关联分析来分析客户的购买趋势,从而预测客户将来的购买行 为。 例如,购买鞋子的客户很有可能还会购买袜子,这一信息可以表示为一种关联规则(具有给定的最 小支持和最小置信度):鞋子=> 袜子 [支持 = 0.5, 最小置信度 = 0.1] 注意: 不支持使用 HANA 先验算法创建模型。 HANA 先验属性 先验类型
单击“先验”
项目列
选择您希望应用该算法的项目所在的列。
事务 ID 列
选择您希望应用该算法的事务 ID 所在的列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:算法保留缺少值,以供处理。
支持
输入项目的最小支持值。
置信度
输入规则/关联的最小置信度值。
最大项目计数
输入输出中主要项目和从属项目的长度。
线程数
输入用于执行的线程数。
9.1.7.2 HANA AprioriLite
使用此算法可查找大型事务数据集中常用的项目集模式以生成关联规则。Apriori Lite 还支持算法内 部抽样。 注意: • 通过将“先验类型”选择为“AprioriLite”,用户可以在 HANA 先验算法属性内使用 HANA AprioriLite。 • 不支持使用 HANA AprioriLite 算法创建模型。 • 仅计算两个大型项目集。 HANA AprioriLite 属性 先验类型
77
单击“AprioriLite”。
2013-05-24
部件属性
项目列
选择您希望应用该算法的项目所在的列。
事务 ID 列
选择您希望应用该算法的事务 ID 所在的列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 保留:算法保留缺少值,以供处理。
支持
输入项目的最小支持值。
置信度
输入规则/关联的最小置信度值。
优化类型
• 如果要使用所有数据,将其设置为 0。 • 如果希望对源输入数据抽样,请将抽样百分比指定为一个双精度值。
重新计算
如果使用抽样数据,该参数表示是否要计算精确结果。设置“0”表示不重 新计算精确结果。
线程数
输入用于执行的线程数。
9.1.7.3 HANA R 先验
使用此算法可查找大型事务数据集中常用的项目集模式,使用“arules”R 包生成关联规则。可利 用此算法理解客户会倾向同时购买哪些产品和服务。用户可通过关联分析来分析客户的购买趋势,从而 可以预测客户将来的购买行为。 例如,购买鞋子的客户很有可能还会购买袜子,这一信息可以表示为一种关联规则(具有给定的最 小支持和最小置信度):鞋子=> 袜子 [支持 = 0.5, 置信度 = 0.1] HANA R 先验属性 输出模式
选择显示输出的模式。
输入格式
选择输入数据的格式。
项目列
选择您希望应用该算法的项目所在的列。
事务 ID 列
选择您希望应用该算法的事务 ID 所在的列。
支持
输入项目的最小支持值。
置信度
输入规则/关联的最小置信度值。
保存模型 规则
78
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需 要为该模型输入名称和说明。 输入新列的名称,此新列包含给定数据集的先验规则。
2013-05-24
部件属性
支持值
输入新列的名称,此新列包含对应规则的支持。
置信度值
输入新列的名称,此新列包含对应规则的置信度值。
提升值
输入新列的名称,此新列包含对应规则的提升值。
事务 ID
输入新列的名称,此新列包含事务 ID。
条目
输入新列的名称,此新列包含项目的名称。
匹配规则
输入新列的名称,此新列包含匹配规则。
Lhs 项目
输入逗号分隔的项目标签,这些项目显示在规则或项目集的左手 边。
Rhs 项目
输入逗号分隔的项目标签,这些项目显示在规则或项目集的右手 边。
两项目均有 无任何项目
输入逗号分隔的项目标签,这些项目显示在规则或数据集的两边。 输入逗号分隔的项目标签,这些项目不需要显示在规则或数据集 上。
默认外观
输入未显式提及的项目的默认外观。
排序项目
选择排序选项以根据项目的频率将其排序。
过滤器项目
输入数值,此数值表明如何过滤事务中未使用的项目。
树视图
要将事务组织为前缀树,请选择“真”。
使用堆排序
要使用堆排序而非快速排序对事务进行排序,请选择“真”。
最小化内存
要最小化内存使用(而不是最大化速度),请选择“真”。
加载事务
要将事务加载到内存,请选择“真”。
9.1.7.4 R 先验
使用此算法可查找大型事务数据集中常用的项目集模式,使用“arules”R 包生成关联规则。可利 用此算法理解客户会倾向同时购买哪些产品和服务。用户可通过关联分析来分析客户的购买趋势,从而 可以预测客户将来的购买行为。 例如,购买鞋子的客户很有可能还会购买袜子,这一信息可以表示为一种关联规则(具有给定的最 小支持和最小置信度):鞋子=> 袜子 [支持 = 0.5, 置信度 = 0.1] R 先验属性
79
输出模式
选择显示输出的模式。
输入格式
选择输入数据的格式。
2013-05-24
部件属性
项目列
选择您希望应用该算法的项目所在的列。
事务 ID 列
选择您希望应用该算法的事务 ID 所在的列。
支持
输入项目的最小支持值。
置信度
输入规则/关联的最小置信度值。
保存模型
如果用户希望保存算法的状态,请选择此选项。若要保存,用户需 要为该模型输入名称和说明。
规则
输入新列的名称,此新列包含给定数据集的先验规则。
支持值
输入新列的名称,此新列包含对应规则的支持。
置信度值
输入新列的名称,此新列包含对应规则的置信度值。
提升值
输入新列的名称,此新列包含对应规则的提升值。
事务 ID
输入新列的名称,此新列包含事务 ID。
条目
输入新列的名称,此新列包含项目的名称。
匹配规则
输入新列的名称,此新列包含匹配规则。
Lhs 项目
输入逗号分隔的项目标签,这些项目显示在规则或项目集的左手 边。
Rhs 项目
输入逗号分隔的项目标签,这些项目显示在规则或项目集的右手 边。
两项目均有 无任何项目
输入逗号分隔的项目标签,这些项目显示在规则或数据集的两边。 输入逗号分隔的项目标签,这些项目不需要显示在规则或数据集 上。
默认外观
输入未显式提及的项目的默认外观。
排序项目
选择排序选项以根据项目的频率将其排序。
过滤器项目
输入数值,此数值表明如何过滤事务中未使用的项目。
树视图
要将事务组织为前缀树,请选择“真”。
使用堆排序
要使用堆排序而非快速排序对事务进行排序,请选择“真”。
最小化内存
要最小化内存使用(而不是最大化速度),请选择“真”。
加载事务
要将事务加载到内存,请选择“真”。
9.1.8 分类
80
2013-05-24
部件属性
9.1.8.1 HANA KNN
使用此部件可对基于培训的样本数据的对象进行分类。在 KNN 中,对象由其邻居的多数票进行分类。 注意: 不支持使用 HANA KNN 算法创建模型。 HANA KNN 属性 独立列
选择输入的源列。
邻居计数
输入考虑用于查找距离的邻居数。
投票类型
选择投票类型。
缺少值
选择处理缺少值的方法。 • 删除:算法会跳过独立列或从属列中包含缺少值的记录。 • 忽略:算法考虑缺少值,以供处理。
模式名称
输入包含受训数据的模式。
表名称
输入包含受训数据的表格。
独立列
输入要考虑将其用于培训数据的输入列。
从属列
输入要考虑将其用于培训数据的输出列。
预测列的名称
输入新列的名称,此新列包含分类值。
线程数
输入用于执行的线程数。
9.2 数据准备部件
可使用数据准备部件准备要分析的数据。这些部件是可选部件。
9.2.1 公式
81
2013-05-24
部件属性
使用此部件可将预定义的函数和运算符应用到数据上。除数据操作函数之外,所有的函数和表达式都会 添加一个新列,新列中为公式的结果。 注意: • 输入包含单引号的字符串时,字符串内的每一个单引号必须使用反斜线字符进行转义。例如,将 “Customer's” 输入为 “Customer\'s”。 • 输入包含方括号的列名称时,列名称内的每一个方括号必须使用反斜线字符进行转义。例如,将 [Customer[Age]] 输入为 [Customer\[Age\]]。 公式属性 名称
输入应用公式而产生的新列的名称。
表达式
输入希望应用的公式。例如,Average([年龄])。
示例:计算员工的平均年龄 员工表格:
1。 2。
员工 ID
员工姓名
出生日期
年龄
入职日期
确认日期
1
Laura
11/11/1986
25
12/9/2005
27/11/2005
2
Desy
12/5/1981
30
24/6/2000
10/7/2000
3
Alex
30/5/1978
33
10/10/1998
24/12/1998
4
John
6/6/1979
32
2/12/1999
20/12/1999
将“公式”部件拖动到分析编辑器。 在属性视图中,输入公式的名称。 例如,Average_Age。
3。 4。
在“表达式”字段输入公式:AVERAGE([年龄]) 选择“验证并应用”以验证公式的语法。 输出表:
82
2013-05-24
部件属性
Average_Age
员工 ID
员工姓名
出生日期
年龄
入职日期
确认日期
1
Laura
11/11/1986
25
12/9/2005
27/11/2005
30
2
Desy
12/5/1981
30
24/6/2000
10/7/2000
30
3
Alex
30/5/1978
33
10/10/1998
24/12/1998
30
4
John
6/6/1979
32
2/12/1999
20/12/1999
30
支持的函数 类别
函数(应用于员工表格时起作用) 说明
日期
DAYSBETWEEN
返回两个日期之间的天数。
CURRENTDATE
返回当前系统日期。
MONTHSBETWEEN
返回两个日期之间的月份数。 例如,当将 MONTHSBETWEEN([入职日期],[确认日期]) 应用到员工表格时,新列将包含 2、0、2、0。
DAYNAME
返回字符串格式的日名称。 例如,当将 DAYNAME([入职日期]) 应用到员工表格 时,新列将包含“Monday”、“Saturday”、“Saturday”、“Thursday”。
DAYNUMBEROFMONTH
返回某天在特定月份中的排列序数。 例如,12/11/1980 返回 12。
DAYNUMBEROFWEEK
返回某天在周中的排列序数。 例如,星期日 = 1、星期一 = 2。
DAYNUMBEROFYEAR
返回某天在年中的排列序数。 例如,1st Jan = 1、1st Feb = 32、3rd Feb = 34。
LASTDATEOFWEEK
返回一周中最后一天的日期。 例如,12/9/2005 返回 17/9/2005
LASTDATEOFMONTH
返回月份中最后一天的日期。 例如,12/9/2005 返回 30/9/2005
MONTHNUMBEROFYEAR
返回日期所在的月份数。 例如,Jan = 1、Feb = 2、Mar = 3
83
2013-05-24
部件属性
类别
函数(应用于员工表格时起作用) 说明
WEEKNUMBEROFYEAR
返回周在年中的排列序数。 例如,12/9/2005 返回 38。
QUARTERNUMBEROFDATE
返回日期所在的季度数。 例如,12/9/2005 返回 3。
字符串
CONCAT
拼接两个字符串。 例如,CONCAT('USA', 'Australia') 返回 USAAustralia。
INSTRING
如果在源字符串中找到搜索字符串,则返回“真”。 例如,INSTRING('USA', 'US') 返回“真”。
SUBSTRING
返回源字符串中的子字符串。 例如,SUBSTRING('USA', 1,2) 返回 US。
数学
数据操作
STRLEN
返回源字符串中的字符数例如,STRLEN('Australia') 返回 9。
MAX
返回列中的最大值。
MIN
返回列中的最小值。
COUNT
返回列中值的数量。
SUM
返回列中值的总和。
AVERAGE
返回列中值的平均值。
@REPLACE
对字符串执行原处替换。 例如,@REPLACE([country],'USA', 'AMERICA') 将 “country”一列中的“USA”替换为“AMERICA”。
84
2013-05-24
部件属性
类别
函数(应用于员工表格时起作用) 说明
@BLANK
将空值替换为指定值。 例如,@BLANK([country], 'USA') 将“country”一 列的所有空值替换为“USA”。
@Select
选择满足给定条件的行。用户可以使用任何条件运算符 来指定条件。 例如,@SELECT([country]=='USA') 选择“country” 等于“USA”的行。
条件表达式
IF(条件) THEN(字符串表达式/ 检查是否满足条件,如果“真”则返回一个值,如果 数学表达式) ELSE(字符串表达 “假”则返回另一个值。 式/数学表达式/条件表达式) 例如,IF([入职日期]>12/9/2005) THEN('2005 年 9 月 12 日以后加入的员工') ELSE('2005 年 9 月 12 日当日或之前加入的员工')
注意: 不支持包含返回数值的函数的数学表达式。例如,不支持表达式 DAYNUMBEROFMONTH(CURRENTDATE())+2,因为 DAYNUMBEROFMONTH 会返回数值。 数学运算符 使用数学运算符创建包含数值列和/或数字的公式。例如,表达式 [年龄] + 1 添加了一个新列,新 列包含值 26、31、34、33。 数学运算符
说明
+
加法运算符
-
减法运算符
*
乘法运算符
/
除法运算符
()
圆括弧或圆括号
^
幂运算符
%
取模运算符
E
指数运算符
条件运算符 使用条件运算符创建 IF THEN ELSE 或 SELECT 表达式。
85
2013-05-24
部件属性
条件运算符
说明
==
等于
!=
不等于
<
小于
>
大于
<=
小于等于
>=
大于等于
逻辑运算符 使用逻辑运算符比较两个条件,并返回“真”或“假”。例如,IF([入职日期]>12/9/2005 && [年 龄] >=25 ) THEN ('True') ELSE ('False') 添加了一个包含值“真”、“假”、“假”、“假”的新 列。 逻辑运算符
说明
&&
AND
||
OR
9.2.2 示例
使用此部件可从大型数据集中选择数据的子集。 示例部件支持以下示例类型: • 前 N:选择数据集中前 N 个记录。 • 后 N:选择数据集中后 N 个记录。 • 每隔 N:选择数据集中的每 N个记录(N 表示间隔)。例如,如果 N=2,则选择第 2、4、6、8 个记录,以此类推。 • 简单随机:随机选择数据集中大小为 N 或百分之 N 的记录。 • 系统性随机:在此示例类型中,示例间隔或存储桶根据存储桶的大小而创建。示例部件从第一个 存储桶中随机选择第 N 个记录,然后从每个后续存储桶中选择第 N 个记录。 示例属性
86
示例类型
选择示例的类型。
限制行的依据
选择用于限制行的方法。
2013-05-24
部件属性
行数
输入要选择的行数。
行的百分比
输入要选择的行的百分比。
存储桶大小
输入在其中选择随机行的存储桶大小。
间隔
输入要选择的行之间的间隔。
最大行数
输入要选择的最大行数。
示例:从给定的数据集中选择数据的子集 员工 ID
员工姓名
出生日期
年龄
1
Laura
11/11/1986
25
2
Desy
12/5/1981
30
3
Alex
30/5/1978
33
4
John
6/6/1979
32
5
Ted
4/7/1987
24
6
Tom
30/6/1970
41
7
Anna
24/6/1965
46
8
Valerie
6/7/1990
21
9
Mary
19/9/1985
26
10
Martin
21/11/1986
25
1。
2。
87
前 N:N=5 员工 ID
员工姓名
出生日期
年龄
1
Laura
11/11/1986
25
2
Desy
12/5/1981
30
3
Alex
30/5/1978
33
4
John
6/6/1979
32
5
Ted
4/7/1987
24
后 N:N=4
2013-05-24
部件属性
3。
4。
员工 ID
员工姓名
出生日期
年龄
7
Anna
24/6/1965
46
8
Valerie
6/7/1990
21
9
Mary
19/9/1985
26
10
Martin
21/11/1986
25
员工 ID
员工姓名
出生日期
年龄
3
Alex
30/5/1978
33
6
Tom
30/6/1970
41
9
Mary
19/9/1985
26
员工 ID
员工姓名
出生日期
年龄
7
Anna
24/6/1965
46
8
Valerie
6/7/1990
21
每隔 N:间隔=3
简单随机:行数=2 结果可以是任意两行。
5。
系统性随机:存储桶大小=4 员工 ID
员工姓名
出生日期
年龄
2
Desy
12/5/1981
30
6
Tom
30/6/1970
41
10
Martin
21/11/1986
25
或
88
2013-05-24
部件属性
员工 ID
员工姓名
出生日期
年龄
1
Laura
11/11/1986
25
5
Ted
4/7/1987
24
9
Mary
19/9/1985
26
9.2.3 数据类型定义
使用此部件可更改源列的名称、数据类型和数据格式。定义数据类型可帮助用户准备数据,以使数据适 合以后分析使用。 例如, • 如果数据源的列名称是“des”,可能在分析中不明了。可以将分析中的列名称更改为 “Designation”,这样便于最终用户理解。 • 如果日期以 mmddyy(120201,没有任何日期分隔符)格式保存,系统可能会认为这是一个整数 值。用户可以使用数据类型定义部件将日期格式更改为任何有效的格式,如 mm/dd/yyyy 或 dd/mm/yyyy 等。
。 。 。 。
要更改源列的名称、数据类型和日期格式,请执行以下步骤: 1 将数据类型定义部件添加到分析。 2 右键单击该部件,然后选择“配置属性”。 3 要更改列名称,请为所需的源列输入一个别名。 4 要更改列的数据类型,请选择源列所需的数据类型。
9.2.4 过滤器
使用此部件可过滤基于特定条件的行和列。 注意: • 数据库内过滤器部件不支持函数和高级表达式。 • 如果在配置过滤器部件后更改数据源,过滤器部件仍保留之前定义的行过滤器。
89
2013-05-24
部件属性
过滤器属性 选定的列
为分析选择列。
过滤条件
输入过滤条件。
示例:从源数据中过滤“商店”列并应用“利润>2000”的条件。 商店
收入
利润
Land Mark
10000
1000
Spencer
20000
4500
Soch
25000
8000
。 。 。 。 。 。
1 2 3 4 5 6
取消选中选定列中的“商店”一列。 在“行过滤器”窗格中,选择“利润”一列。 在“从范围中选择”选项中的“从”文本框中输入 2000。“To”(到)文本框应为空。 选择“确定”。 选择“保存并关闭”。 执行分析。
收入
利润
20000
4500
25000
8000
注意: 过滤器部件仅支持返回布尔型结果的表达式。 例如,在下面的员工表中: 员工 ID
员工姓名
出生日期
年龄
入职日期
确认日期
1
Laura
11/11/1986
25
12/9/2005
27/11/2005
2
Desy
12/5/1981
30
24/6/2000
10/7/2000
3
Alex
30/5/1978
33
10/10/1998
24/10/1998
4
John
6/6/1979
32
2/12/1999
20/12/1999
• 表达式 DAYSBETWEEN([入职日期],[确认日期]) 不是有效的过滤器表达式,因为它返回的是数 值。过滤器中 DAYSBETWEEN 表达式的正确用法是 DAYSBETWEEN([入职日期],[确认日期]) == 14。 此表达式可以选择“入职日期”和“确认日期”之间的天数是 14 的行。对于上面的员工表格,选 择的是第三行。 • DAYNAME([入职日期]) == 'Saturday' 选择的是该员工表格的第二行和第三行。
90
2013-05-24
部件属性
注意: • 输入包含单引号的字符串时,字符串内的每一个单引号必须使用反斜线字符进行转义。例如,将 “Customer's” 输入为 “Customer\'s”。 • 输入包含方括号的列名称时,列名称内的每一个方括号必须使用反斜线字符进行转义。例如,将 [Customer[Age]] 输入为 [Customer\[Age\]]。 支持的函数 注意: 过滤器部件不支持数据操作函数。 类别
函数(应用于员工表格时起作用) 说明
日期
DAYSBETWEEN
返回两个日期之间的天数。
CURRENTDATE
返回当前系统日期。
MONTHSBETWEEN
返回两个日期之间的月份数。 例如,当将 MONTHSBETWEEN([入职日期],[确认日期]) 应用到员工表格时,新列将包含 2、0、2、0。
DAYNAME
返回字符串格式的日名称。 例如,当将 DAYNAME([入职日期]) 应用到员工表格 时,新列将包含“Monday”、“Saturday”、“Saturday”、“Thursday”。
DAYNUMBEROFMONTH
返回某天在特定月份中的排列序数。 例如,12/11/1980 返回 12。
DAYNUMBEROFWEEK
返回某天在周中的排列序数。 例如,星期日 = 1、星期一 = 2。
DAYNUMBEROFYEAR
返回某天在年中的排列序数。 例如,1st Jan = 1、1st Feb = 32、3rd Feb = 34。
LASTDATEOFWEEK
返回一周中最后一天的日期。 例如,12/9/2005 返回 17/9/2005
LASTDATEOFMONTH
返回月份中最后一天的日期。 例如,12/9/2005 返回 30/9/2005
MONTHNUMBEROFYEAR
返回日期所在的月份数。 例如,Jan = 1、Feb = 2、Mar = 3
WEEKNUMBEROFYEAR
返回周在年中的排列序数。 例如,12/9/2005 返回 38。
91
2013-05-24
部件属性
类别
函数(应用于员工表格时起作用) 说明
QUARTERNUMBEROFDATE
返回日期所在的季度数。 例如,12/9/2005 返回 3。
字符串
CONCAT
拼接两个字符串。 例如,CONCAT('USA', 'Australia') 返回 USAAustralia。
INSTRING
如果在源字符串中找到搜索字符串,则返回“真”。 例如,INSTRING('USA', 'US') 返回“真”。
SUBSTRING
返回源字符串中的子字符串。 例如,SUBSTRING('USA', 1,2) 返回 US。
数学
条件表达式
MAX
返回列中的最大值。
MIN
返回列中的最小值。
COUNT
返回列中值的数量。
SUM
返回列中值的总和。
AVERAGE
返回列中值的平均值。
IF(条件) THEN(字符串表达式/ 检查是否满足条件,如果“真”则返回一个值,如果 数学表达式) ELSE(字符串表达 “假”则返回另一个值。 式/数学表达式/条件表达式) 例如,IF([入职日期]>12/9/2005) THEN('2005 年 9 月 12 日以后加入的员工') ELSE('2005 年 9 月 12 日当日或之前加入的员工')
注意: 不支持包含返回数值的函数的数学表达式。例如,不支持表达式 DAYNUMBEROFMONTH(CURRENTDATE())==2,因为 DAYNUMBEROFMONTH 会返回数值。 数学运算符 使用数学运算符创建包含数值列和/或数字的公式。例如,表达式 [年龄] + 1 添加了一个新列,新 列包含值 26、31、34、33。
92
数学运算符
说明
+
加法运算符
-
减法运算符
*
乘法运算符
/
除法运算符
()
圆括弧或圆括号
2013-05-24
部件属性
数学运算符
说明
^
幂运算符
%
取模运算符
E
指数运算符
条件运算符 使用条件运算符创建 IF THEN ELSE 或 SELECT 表达式。 条件运算符
说明
==
等于
!=
不等于
<
小于
>
大于
<=
小于等于
>=
大于等于
逻辑运算符 使用逻辑运算符比较两个条件,并返回“真”或“假”。例如,IF([入职日期]>12/9/2005 && [年 龄] >=25 ) THEN ('True') ELSE ('False') 添加了一个包含值“真”、“假”、“假”、“假”的新 列。 逻辑运算符
说明
&&
AND
||
OR
9.2.5 规范化
使用此部件可规范化特性数据。具有较大值的特性会倾向具有较大的权重。规范化会尝试将具有较大范 围的数据变换到较小的范围内,例如 [0,1]、[-1,1] 等。 注意: 规范化仅显示具有数值的列。 规范化部件支持以下规范化方法:
93
2013-05-24
部件属性
• “最小-最大”规范化:在原始数值上执行线性变换,并将值缩放到适合于特定范围。执行“最 小-最大”规范化时,可以指定“新最大值”和“新最小值”。此规范化有助于确保将极端值约束在 固定的范围内。 注意: • “新最大值”必须大于“新最小值”。 • “新最大值”不能等于“新最小值”。 • “Z 得分”规范化:根据每个特性的“平均值”和“标准偏差”进行计算。此规范化有助于确定 特定值究竟高于平均值还是低于平均值,以及高于或低于平均值的量。 • “小数点移位”规范化:根据每个特性的值的最大绝对值移动其小数点的位置。 示例:规范化经过特定距离所需的时间。 表: 姓名
距离(米)
时间(秒)
Laura
500
66
Desy
500
360
Alex
500
201
John
500
78
Ted
500
504
“最小-最大” 1。 将“规范化”部件拖动到分析编辑器上。 2。 双击“规范化”,或将鼠标悬停在“规范化”上并选择“配置属性”。 将出现“规范化”属性视图。 3。
在“选择列”下拉列表中,选择列。 注意: 只能选择含数值位数值的列。 例如,时间(秒)。
4。 5。 6。
在“规范化方法”中,选择“最小-最大”。 输入“新最大值”和“新最小值”。 选择“保存并关闭”,然后选择“运行分析”。 输出表:
94
2013-05-24
部件属性
姓名
距离(米)
时间(秒)
Laura
500
0.05
Desy
500
0.30
Alex
500
0.17
John
500
0.06
Ted
500
0.42
“Z 得分” 1。 将“规范化”部件拖动到分析编辑器上。 2。 双击“规范化”,或将鼠标悬停在“规范化”上并选择“配置属性”。 将出现“规范化”属性视图。 3。
在“选择列”下拉列表中,选择列。 注意: 只能选择含数值位数值的列。 例如,时间(秒)。
4。 5。
在“规范化方法”中,选择“Z 得分”。 选择“保存并关闭”,然后选择“运行分析”。 输出表: 姓名
距离(米)
时间(秒)
Laura
500
-0.49
Desy
500
1.77
Alex
500
0.55
John
500
-0.40
Ted
500
2.88
“小数点移位” 1。 将“规范化”部件拖动到分析编辑器上。 2。 双击“规范化”,或将鼠标悬停在“规范化”上并选择“配置属性”。 将出现“规范化”属性视图。 3。
在“选择列”下拉列表中,选择列。 注意: 只能选择含数值位数值的列。 例如,时间(秒)。
95
2013-05-24
部件属性
4。 5。
在“规范化方法”中,选择“小数点移位”。 选择“保存并关闭”,然后选择“运行分析”。 输出表: 姓名
距离(米)
时间(秒)
Laura
500
0.01
Desy
500
0.04
Alex
500
0.02
John
500
0.01
Ted
500
0.05
9.2.6 HANA 分箱
分箱也称作离散化,可平滑已排序的数据值。它把某范围内的数字变量分成称作“箱”的子范围集,并 用箱号替换每个值。运行某些算法(如决策树算法)之前对数据进行分箱有助于降低模型的复杂度。 共有四种分箱方法: • 基于箱数的等宽 • 基于箱宽的等宽 • 等深 • 与平均值的偏差 以及三种平滑方法: • 按箱平均值进行平滑:箱中每个值均被平均值的箱值替换。 • 按箱中位数进行平滑:每个箱值均被箱中位数替换。 • 按箱边界进行平滑:给定箱中最小值和最大值被标识为箱边界。每个箱值则被其最近的边界值替 换。 HANA 分箱属性 独立列
选择希望执行分箱的输入源列。
缺少值
选择处理缺少值的方法。 可能的值: • 删除:跳过独立列或从属列中包含缺少值的记录。 • 忽略:保留缺少值。
96
2013-05-24
部件属性
分箱方法
选择“分箱方法”。
箱数
输入所需的箱数。
平滑方法
选择“平滑方法”。
已分箱列
输入列的名称,该列将包含分箱后的已分箱值。
平滑值列
输入列的名称,该列将包含平滑后的已平滑值。
示例:对数据集中的数据分箱 城市
温度
阿姆斯特丹
6
法兰克福
12
广州
13
开普敦
15
华道夫
10
班加罗尔
23
孟买
24
迈阿密
30
里约热内卢
32
悉尼
25
迪拜
38
1。 2。
将“HANA Binning”(HANA 分箱)部件拖动到分析编辑器上。 双击“HANA Binning”(HANA 分箱),或将鼠标悬停在“HANA Binning”(HANA 分箱)上并选 择“配置属性”。 将出现“HANA Binning”(HANA 分箱)属性视图。
3。
在“选择列”下拉列表中,选择列。 注意: 只能选择含数值位数值的列。 例如,温度。
4。 5。 6。 7。 8。 9。
97
在“缺少值”下拉列表中,选择“忽略”。 在“分箱方法”中,选择“基于箱数的等宽”。 在箱数中输入 4。 选择“包括平滑”。 在平滑方法中,选择“箱平均值”。 在“输入新添加列的名称”下的“已分箱列”中,输入“温度箱”。
2013-05-24
部件属性
注意: 可以根据个人喜好或分析要求为列命名。此列包含已分箱值。 10。
在“输入新添加列的名称”下的“平滑值列”中,输入“温度平滑”。 注意: 可以根据个人喜好或分析要求为列命名。此列包含已平滑值。 输出表: 城市
温度
温度箱
温度平滑
阿姆斯特丹
6
1
8.0
法兰克福
12
2
13.33333
广州
13
2
13.33333
开普敦
15
2
13.33333
华道夫
10
1
8.0
班加罗尔
23
3
25.5
孟买
24
3
25.5
迈阿密
30
3
25.5
里约热内卢
32
4
35.0
悉尼
25
3
25.5
迪拜
38
4
35.0
9.2.7 HANA 规范化
使用此部件可规范化特性数据。HANA 规范化将较大值特性数据缩放到特定范围内,例如 -1.0 到 1.0 或 0.0 到 1.0。用户可以使用此部件进行数据库内分析。数据的规范化有助于涉及神经网络或距离度 量(如最近邻居分类和聚类)的分类算法。 注意: 如果希望使用处理后的数据替换现有列,可选择“替换列”。 规范化部件支持以下规范化方法: • “最小-最大”规范化:在原始数值上执行线性变换,并将值缩放到适合于特定范围。执行“最小最大”规范化时,可以指定“新最大值”和“新最小值”。此规范化有助于确保将极端值约束在固 定的范围内。
98
2013-05-24
部件属性
注意: • “新最大值”必须大于“新最小值”。 • “新最大值”不能等于“新最小值”。 • “Z 得分”规范化:根据每个特性的平均值和标准偏差进行计算。此规范化有助于确定特定值究竟 高于平均值还是低于平均值,以及高于或低于平均值的量。 • “小数点移位”规范化:根据每个特性的值的最大绝对值移动其小数点的位置。 注意: 如果希望用规范化后的数据替换用于执行规范化的现有列数据,可选择“替换列”。 示例:规范化经过特定距离所需的时间。 表: 姓名
距离(米)
时间(秒)
Laura
500
66
Desy
500
360
Alex
500
201
John
500
78
Ted
500
504
“最小-最大” 1。 将“HANA Normalization”(HANA 规范化)部件拖动到分析编辑器上。 2。 双击“HANA Normalization”(HANA 规范化),或将鼠标悬停在“HANA Normalization”(HANA 规范化)上并选择“配置属性”。 将出现“HANA Normalization”(HANA 规范化)属性视图。 3。
选择希望执行规范化的列。 注意: 只能选择含数值的列。 例如,时间(秒)。
4。 5。 6。
在“规范化方法”中,选择“最小-最大”。 输入“新最大值”和“新最小值”。 选择“保存并关闭”,然后选择“运行分析”。 输出表:
99
2013-05-24
部件属性
姓名
距离(米)
时间(秒)
时间(秒)_规范化
Laura
500
66
0.05
Desy
500
360
0.30
Alex
500
201
0.17
John
500
78
0.06
Ted
500
504
0.42
“Z 得分” 1。 将“HANA Normalization”(HANA 规范化)部件拖动到分析编辑器上。 2。 双击“HANA Normalization”(HANA 规范化),或将鼠标悬停在“HANA Normalization”(HANA 规范化)上并选择“配置属性”。 将出现“HANA Normalization”(HANA 规范化)属性视图。 3。
选择希望执行规范化的列。 注意: 只能选择含数值的列。 例如,时间(秒)。
4。 5。 6。
在“规范化方法”中,选择“Z 得分”。 选择“替换列”。 选择“保存并关闭”,然后选择“运行分析”。 输出表: 姓名
距离(米)
时间(秒)
Laura
500
-0.49
Desy
500
1.77
Alex
500
0.55
John
500
-0.40
Ted
500
2.88
“小数点移位” 1。 将“HANA Normalization”(HANA 规范化)部件拖动到分析编辑器上。 2。 双击“HANA Normalization”(HANA 规范化),或将鼠标悬停在“HANA Normalization”(HANA 规范化)上并选择“配置属性”。 将出现“HANA Normalization”(HANA 规范化)属性视图。 3。
100
选择希望执行规范化的列。
2013-05-24
部件属性
注意: 只能选择含数值的列。 例如,时间(秒)。 4。 5。 6。
在“规范化方法”中,选择“小数点移位”。 选择“替换列”。 选择“保存并关闭”,然后选择“运行分析”。 输出表: 姓名
距离(米)
时间(秒)
Laura
500
0.01
Desy
500
0.04
Alex
500
0.02
John
500
0.01
Ted
500
0.05
9.3 数据写入器
使用数据写入器可将分析的结果存储到平面文件或数据库中,以备将来进行分析。
9.3.1 CSV 写入器
使用此部件可将数据写入平面文件,如 CSV、文本和 DAT 文件。 CSV 写入器属性
101
文件名
选择 .csv 或 .dat 或 .txt 文件。
覆盖
要覆盖现有文件,请选择此选项。
列分隔符
选择用于分隔文件中的数据标记的列分隔符。
引号字符
选择写入数据时要添加的字符。
2013-05-24
部件属性
包括列标题
选择此选项将第一行用作列标题。
编码
选择写入数据时要使用的文本编码方法。
小数分隔符
选择数字分组中用于小数表示的字符。
分组分隔符
选择用作千位分隔符的字符。
数字格式
输入希望应用到数值数据的数字格式。
日期时间格式
选择希望应用到日期的日期格式。
9.3.2 JDBC 写入器
使用此部件可将数据写入相关数据库,如 MySQL、MS SQL Server、DB2、Oracle、SAP MaxDB 和 SAP HANA。 JDBC 写入器属性 数据库类型 数据库驱动程序路径
选择数据库类型。 输入 JDBC 驱动程序路径的位置。例如,要写入 Oracle 数据 库,用户需要指定 Oracle JDBC jar 的位置(C:\ojdbc6.jar)
计算机名称
输入安装数据库的计算机的名称。
端口号
输入数据库或服务端口号。
数据库名称
输入数据库的名称。
用户名
输入数据库用户名。
密码
为数据库用户输入密码。
表类型
输入表的类型。此属性适用于写入 SAP HANA 数据库的情况。
表名称
输入表名称。
覆盖
如果表已存在,选择此选项将该表覆盖。
9.3.3 HANA 写入器
使用此部件可将数据写入 SAP HANA 数据库表中。
102
2013-05-24
部件属性
HANA 写入器部件 模式名称
输入模式的名称。
表类型
选择您希望将数据写入其中的表的类型。
表名称
输入表的名称。
覆盖
如果表已存在,选择此选项将该表覆盖。
9.4 保存的模型
通过保存算法状态而创建的模型列于“保存的模型”选项卡上。SAP Predictive Analysis 应用程 序不包括预定义的模型。因此,首次启动该应用程序时,“保存的模型”选项卡将不显示。 有关创建新模型的信息,请参阅“使用模型”中的“在进程内(In-Proc)分析中创建模型”和“在 HANA 数据库内(In-DB)分析中创建模型”节。
103
2013-05-24
更多信息
附录 A 更多信息
信息资源
SAP BusinessObjects 产品信息
位置
http://www.sap.com 导航到 http://help.sap.com/businessobjects/ 并在“SAP BusinessObjects Overview”(SAP BusinessObjects 概述)侧面板上单击“All Products”(所有产品)。
SAP Help Portal
用户可以从 SAP Help Portal 访问涵盖所有 SAP BusinessObjects 产品及其开发信息的最新文档。用户可以下载 PDF 版本或可安装的 HTML 库。 某些指南存储在 SAP Service Marketplace 中,并且无法从 SAP Help Portal 获得。这些指南将在 Help Portal 上列出,并附有指向 SAP Service Marketplace 的链接。拥有维护协议的客户有访问此站点 的授权用户 ID。如要获得 ID,请联系客户支持代表。 http://service.sap.com/bosap-support > 文档 • 安装指南:https://service.sap.com/bosap-instguides • 发行说明:http://service.sap.com/releasenotes
SAP Service Marketplace
SAP Service Marketplace 用于存储某些安装指南、升级和迁移指 南、部署指南、发行说明以及所支持平台的文档。拥有维护协议的客户 有访问此站点的授权用户 ID。请联系客户支持代表以获得 ID。如果是 从 SAP Help Portal 重定向到 SAP Service Marketplace,请使用左侧 导航窗格中的菜单找到包含要访问的文档的类别。 https://cw.sdn.sap.com/cw/community/docupedia
Docupedia
开发人员资源
Docupedia 提供更多文档资源、协作编写环境,以及交互式反馈渠 道。 https://boc.sdn.sap.com/ https://www.sdn.sap.com/irj/sdn/businessobjects-sdklibrary
104
2013-05-24
更多信息
信息资源
位置
https://www.sdn.sap.com/irj/boc/businessobjects-articles
SAP Community Network 上的 SAP BusinessObjects 文章
这些文章以前称为技术论文。 https://service.sap.com/notes
技术说明
这些技术说明以前称为知识库文章。 SAP Community Network 上的论坛
https://www.sdn.sap.com/irj/scn/forums http://www.sap.com/services/education
培训
从传统的课堂学习到有针对性的电子学习讲座,我们都可以提供一套 培训方案,满足您的学习需要,适合您喜欢的学习方式。 http://service.sap.com/bosap-support
联机客户支持
SAP Support Portal 包含关于客户支持计划和服务的信息。它还包 含指向各种技术信息和下载内容的链接。拥有维护协议的客户有访问此 站点的授权用户 ID。如要获得 ID,请联系客户支持代表。 http://www.sap.com/services/bysubject/businessobjectsconsult ing
咨询
105
从最初的分析阶段到交付部署项目为止,顾问将始终与您协同工作。 我们提供各种主题(例如,关系数据库和多维数据库、连通性、数据库 设计工具以及自定义嵌入技术)的专业技能。
2013-05-24