• 售前

  • 售后

热门帖子
入门百科

sqoop读取postgresql数据库表格导入到hdfs中的实现

[复制链接]
紫色214 显示全部楼层 发表于 2021-10-26 13:11:58 |阅读模式 打印 上一主题 下一主题
最近再学习spark streaming做及时盘算这方面内容,过程中必要从背景数据库导出数据到hdfs中,经过调研发现必要利用sqoop进行操作,本次操作环境是Linux下。
起首确保环境安装了Hadoop和sqoop,安装只必要下载 ,解压 以及设置环境变量,这里不多说了,网上教程很多。
一、设置sqoop以及验证是否乐成

切换到设置文件下:cd $SQOOP_HOME/conf
创建立置环境文件: cp sqoop-env-template.sh sqoop-env.sh
修改设置文件:conf/vi sqoop-env.sh:修改内容如下

设置完成后,实行下令sqoop-version ,查抄是否乐成,如图表现sqoop 1.4.7即乐成。

二、添加postgresql驱动jar包

由于这里利用sqoop读取postgresql的数据,以是必要将数据库驱动包放到$SQOOP_HOME/lib 下即可 。
三、导入pg数据库中表到hdfs中

1、起主要启动Hadoop集群,否则会报错
实行语句 $HADOOP_HOME/sbin/./start-all.sh
2、实行sqoop语句进行数据导入到hdfs
  1. sqoop import \
  2.   --connect jdbc:postgresql:localhost:5432/test(数据库的名称)
  3.   --username postgres (填自己的数据库用户名)
  4.   --password 888888 (填自己数据库的密码)
  5.   --table company (自己创建表的名称)
  6.   --m 1 (mapreduce的个数)
复制代码
实行结果如图:

3、查抄hdfs上是否乐成存储到表数据
$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(数据目录改成自己的)
结果如图所示:

表现利用sqoop 将 postgreql上的表格数据乐成导入到hdfs中,这算本日也有点劳绩了!
增补:利用Sqoop从PostgreSQL导入数据时遇到的坑
  1. sqoop import \
  2. --connect "jdbc:postgresql://10.101.70.169:5432/db_name" \
  3. --username "postgres" \
  4. --password "123456" \
  5. --table "test_user"\
  6. --target-dir "/user/hive/warehouse/test.db/test_user" \
  7. --fields-terminated-by '\t' \
  8. --lines-terminated-by '\n' \
  9. --hive-drop-import-delims \
  10. --incremental lastmodified \
  11. --merge-key id \
  12. --check-column update_time \
  13. --last-value "2019-03-25" \
  14. --m 1 \
  15. -- --schema "schema_name" \
  16. --null-string '\\N' \
  17. --null-non-string '\\N'
复制代码
1、
  1. -- --schema
复制代码
一定要放在后面,否则可能导致无运行日志或无法导入数据到指定目录且无法重新实行(报目录已存在)
2、
  1. PostgreSQL
复制代码
须设置
  1. SET standard_conforming_strings = on;
复制代码
,否则
  1. --null-string和--null-non-string
复制代码
不起作用;
3、
  1. --null-string
复制代码
  1. --null-non-string
复制代码
放在
  1. -- --schema
复制代码
后面,否则实行时报
  1. Can't parse input data: '\N'
复制代码
以上为个人经验,希望能给各人一个参考,也希望各人多多支持脚本之家。如有错误或未思量完全的地方,望不吝见教。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作