Centos에서 Streamset 설치하기

StreamSet 설치

스트림셋
오픈소스 데이터 콜렉터 : ETL 도구라함 (추출, 변환, 적재)
동일기종 또는 타기종으로 부터 추출하고, 이를 변환하고 적재하는 과정을 의미
NIFI / KNIME도 유명하다

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
# wget https://archives.streamsets.com/datacollector/3.11.0/tarball/streamsets-datacollector-all-3.11.0.tgz

# tar xvf {datacollector}.tar

# cd streamsets-datacollector-all-3.11.0

// 설정
# cp ./etc /tc/sdc -r

# cd libexec // 환경변수 세팅하는 디렉

# vi sdc-env.sh // 아래 네개항목 주석 해제
export SDC_DATA=/var/lib/sdc
export SDC_LOG=/var/log/sdc
export SDC_CONF=/etc/sdc
export SDC_RESOURCES=/var/lib/sdc-resources

# cd ..
# cd bin

# ulimit -n 32768 // 최대 열 수 있는 갯수를 늘려줌

# ./streamsets dc

# firewall-cmd --zone=public --add-port=18630/tcp --permanent
# service sshd start

xxx:18630 접속

admin/ admin
# cd ..

# mkdir data
# cd data
# mkdir BasicTutorial
# cd BasicTutorial
# mkdir error
# mkdir origin // 원천데이터
# mkdir destination //최종적으로 변환된 것이 저장된 공간
# ./streamsets dc

만약 경로관련 문제로 실행이 안될경우
스트림셋 실행하기 전에 아래를 입력하고 ./streamsets dc 해볼것

1
2
3
4
export SDC_CONF=/etc/sdc
export SDC_DATA=/var/lib/sdc
export SDC_LOG=/var/log/sdc
export SDC_HOME=/opt/streamsets-datacollector

백그라운드로 돌리기 위해선 아래를 입력
nohup ./streamset dc &

Share