《数据导入与预处理应用》第3章 数据的导入与导出.pptx
数据导入与预处理应用-第三章数据的导入与导出
目于文件的数据导入与导出基于数据库的数据导入与导出基于Web的数据导入与导出基于CDC变更的数据导入与导出
内容简介1在数据开发项目中,数据的导入与导出是一项基本的工作,也是一项重要的工作,需要从复杂多样化的数据源中抽取数据,经过转换后,以指定的文件格式导出到指定的存储空间进行数据的发布。幸运的是,Kettle提供了一系列的输入、输出步骤来完成这些工作。对于每个步骤的具体使用说明,可以双击该步骤,在弹出的步骤配置弹框中,单击“help”按钮进行查看。尽管这些步骤覆盖了Kettle的大部分数据导入与导出的功能,但也并不是所有的功能,在某些特定的场景下,往往需要ETL工程师进行编程实现数据的导入与导出处理。
内容简介在本章,我们将通过一些案例,分类的学习如何利用这些输入类的步骤获取不同来源、不同类型的数据,并利用输出类的步骤直接导出数据进行查看和分析。在这些案例的操作指导中,我们将简化描述案例的操作过程,我们将从转换的输入输出需求、转换的设计和步骤的参数配置这3个方面描述案例的操作,关于具体的可视化编程过程,读者可参考第2章的2.2.2的案例。我们将按以下4种场景学习数据的导入与导出:基于文件的数据导入与导出Kettle的安装基于数据库的数据导入与导出基于Web的数据导入与导出Kettle的安装基于CDC变更的数据导入与导出1234
01基于文件的数据导入与导出
基于文件的数据导入与导出ETL。。。
基于文件的数据导入与导出1分割符文件2固定宽度文件在这种文件里,每个字段或列都有特定字符或制表符分割。每个字段或列都有指定的宽度或长度。
基于文件的数据导入与导出为了能正确的读取这两种文件,我们需要在输入类的步骤中选择文字编码。查看文件的字符编码方法比较多,较方便的一种方法就是用IE浏览器查看。打开IE浏览器,把文件拖放在IE浏览器上显示。然后,右键单击文件,在右键菜单上选择“编码(E)”,在旁边的弹框中将看到此文件的编码。
基于文件的数据导入与导出最基本的文本文件输入步骤就是“CSV文件输入”步骤。CSV文件是一种用分隔符分割的文本文件。在处理这种文件之前,需要通过文本编辑器打开查看,以确定此文件的分隔符和字段。“CSV文件输入”步骤和与之类似的“固定宽度文件输入”步骤其实都是“文本文件输入”步骤的简化版,都不适合一次处理多个文件。这三个步骤是处理文本文件的首选步骤。
基于文件的数据导入与导出“文本文件输入”的功前一个步骤读取文件名读取多个文件读取压缩文件不用指定文件结构指定逃逸字符错误处理过滤本地化日期格式
文件的导入与导出案例1(1)转换的输入输出需求读入student.csv文件,输出固定宽度为12字节的student.txt文件。student.csv文件以逗号为分隔符
文件的导入与导出案例1期望输出的student.txt文件内容
文件的导入与导出案例1(2)转换的设计图参考第2章2.2.2节的操作,新建转换文件,并开始可视化编程。其中,“固定宽度文本文件输出”为“文本文件输出”步骤。
文件的导入与导出案例1(3)步骤的配置“CSV文件输入”的配置:点击“浏览(B)…”按钮,选择student.csv文件作为输入文件来处理。“列分隔符”选择了逗号(,),因为用文本编辑器打开student.csv文件,可以看到此文件的分隔符是逗号。勾选“包含列头行”,表示此文件的第一行作为字段,不在后续输出流中输出。点击“获取字段”,在此步骤的字段列表中选择出此文件的8个字段。
文件的导入与导出案例1“固定宽度文本文件输出”的配置点击“浏览(B)”按钮,选择在路径“E:\教材案例\第3章”中输出名为student的文件。文件的后缀名在“扩展名”中指定为txt文本文件。
文件的导入与导出案例1“分隔符”配置为空,因为我们需要输出没有分隔符的文件。“格式”选择“CR+LFterminated(Windows,DOS)”,因为此转换在Windows下运行,文件换行的字符是回车换行符。
文件的导入与导出案例1点击“获取字段”按钮,在字段列表上选择出此文件的所有字段。然后,在各个字段的“长度”中,输入“12”,表示每个输出字段的长度为12字节。
文件的导入与导出案例1点击运行按钮,在弹出的对话框中点击启动按钮,将在路径“E:\教材案例\第3章”中输出名为student.txt的文件
文件的导入与导出案例2(1)转换的输入输出需求读入固定宽度的student.txt文件,输出分隔符为分号(;)的stu.txt文件。student.txt为本章案例1的输出文件
文件的导入与导出案例2期望输出的stu.txt文件内容
文件的导入与导出案例2(2)转换的设