Create sample_dataset
새롭게 생성한 Lab을 선택한 후 데이터셋을 생성하기 위해 총 3개의 단계를 진행해야합니다.
1. 데이터 소스(Source Type) 선택
2. 목적타입(Purpose Type) 선택
3. 데이터 분석방식 선택
Source Type
데이터 소스는 어떤 방식으로 데이터 불러와, 데이터셋을 생성할지 정의하는 기능 입니다.
TML의 데이터 소스는 파일, 데이터베이스, 데이터허브, 그리고 NiFi로 4가지 입력 방식을 제공 합니다.
소스 타입 | 설명 |
---|---|
File | CSV 파일을 업로드해서 데이터셋을 생성합니다. |
Database | 데이터베이스에서 쿼리를 통해 데이터셋을 생성합니다 *데이터베이스는 Mysql, Oracle, MSSql, Postgre, DynamoDB, JDBC를 지원합니다 |
Data Hub | 그린웨일즈의 공유기능힌 허브 중 데이터를 공유하는 데이터허브에서 데이터를 불러와, 데이터셋을 생성합니다. |
NiFi | OpenSource 도구인 NiFi를 통해 데이터 수집 자동화 프로세스를 구성하고 이를 통해 데이터셋을 생성 합니다. |
본 튜토리얼에서는 앞서 다운로드 받은 CSV파일을 통해 기업의 연체 여부를 예측하는 인공지능 모델을 생성 합니다.

화면 중앙의 파일업로드 박스에 다운로드 받은 데이터를 드래그&드롭으로 끌어 넣거나
파일업로드 박스를 클릭해 직접 파일을 선택합니다.
파일의 업로드가 완료되면 아래쪽 초록색 다음버튼을 클릭합니다.
Purpose Type

생성하려는 인공지능의 타입을 설정 합니다.
인공지능의 타입으로 분류(Classification), 회귀(Regression), 군집(Clustering), 시계열(Timeseires) 중 하나를 선택합니다.
기본적으로 데이터셋의 내용에 따라 자동으로 추천되며 변경이 가능합니다.
- 분류(Classification): 데이터를 미리 정의된 범주나 클래스 중 하나로 분류
- 회귀(Regression): 입력 변수로부터 연속적인 수치 값을 예측
- 군집(Clustering): 비슷한 특성을 가진 데이터끼리 그룹으로 묶는 비지도 학습 방법
- 시계열(Timeseires): 시간의 흐름에 따른 데이터 패턴을 분석하고 미래 값을 예측
본 튜토리얼에서는 기업의 연체의 연체 여부를 분류하는 목적이기 때문에 분류를 선택 합니다.
Target Column
수집한 데이터셋으로 예측하고자 하는 컬럼명을 선택합니다.
기본적으로 수집된 데이터셋의 마지막 컬럼이 자동으로 설정되며 변경 가능합니다.
본 튜토리얼에서는 기업의 연체여부에 해당하는 DLQY_YN 컬럼으로 선택합니다.
군집(Clustering) 모델은 비지도 학습으로 타겟 컬럼을 지정하지 않습니다.
데이터 분석
업로드한 데이터의 자동 분석을 지원 합니다.
데이터 분석 방법에는 일반 분석, 분할 분석, 샘플링 분석을 지원합니다.
- 일반 분석: 수집한 모든 데이터를 사용하여 데이터를 분석합니다. 데이터셋의 컬럼 수와 로우수에 비례하여 오랜 분석시간이 소요될 수 있습니다.
- 분할 분석: 사용가능한 자원에 맞게 데이터를 분할하여 분석합니다. 분석 학습 모델로 학습하기 때문에 일반 모델과 성능에 차이가 있을 수 있습니다.
- 샘플링 분석: 수집된 데이터의 표본만을 사용하여 데이터를 분석합니다. 학습시에는 모든 데이터를 이용하여 학습합니다.

본 튜토리얼에서는 일반 분석을 선택 해 수집된 모든 데이터의 분석을 확인 합니다.