文章摘要
这篇文章描述了从本地CSV文件(csv2)到另一个表(csv3)的迁移过程。首先,文章创建了一个名为`csv2`的表,使用CSV格式存储数据,字段包括`uid`、`uname`和`age`。接着,文章创建了一个名为`csv3`的表,存储格式为Parquet,以便提高数据存储效率和访问速度。然后,文章通过插入命令将`csv2`表的数据复制到`csv3`表中,并使用`overwrite`参数覆盖现有数据。整个过程展示了如何通过表存储格式的转换和数据迁移来优化数据库性能。
drop table csv2;
create table if not exists csv2
(
uid int,
uname string,
age int
)
row format serde ‘org.apache.hadoop.hive.serde2.OpenCSVSerde’
stored as textfile;
— 先导入csv文件到表格csv2,保存格式是textfile
load data local inpath ‘/data/csv2.csv’ into table csv2;
create table if not exists csv2
(
uid int,
uname string,
age int
)
row format serde ‘org.apache.hadoop.hive.serde2.OpenCSVSerde’
stored as textfile;
— 先导入csv文件到表格csv2,保存格式是textfile
load data local inpath ‘/data/csv2.csv’ into table csv2;
drop table csv3;
— 创建csv3,保存格式parquet
create table if not exists csv3
(
uid int,
uname string,
age int
)
row format delimited
fields terminated by ‘,’
stored as parquet;
— 提取csv2的数据插入到csv3
insert overwrite table csv3 select * from csv2;
© 版权声明
文章版权归作者所有,未经允许请勿转载。