Tableau

[Tableau 신병훈련소 26기][학습]10일차

spacerwhite 2025. 1. 25. 20:13

 Tableau Prep

분석 전에 데이터를 정리하고 변환하는 전처리 작업을 수행하는 태블로의 소프트웨어

 

데이터를 추가하기 위해 데이터 연결을 클릭하고 데이터를 가져올 원하는 메뉴를 선택한다.

 

여기에서는 엑셀파일을 사용할 것이기 때문에 Microsoft Excel을 선택한다.

 

2017~2020년 데이터를 불러온 후 데이터를 형식에 맞게 하나로 합치는 과정을 진행한다.

UNION- 같은 구조의 데이터를 세로 방향(아래)으로 데이터를 결합

JOIN- 다른 테이블에서 공통된 필드(열)를 기준으로 가로 방향(옆)으로 데이터를 결합

 

결합된 데이터를 확인해보면 일치하지 않는 데이터가 존재하는 것을 알 수 있다.

2017~2019년까지 데이터는 할인율, 수익이라는 필드명을 사용하고 있으며 2020년 데이터에서는 할인, 이익이라는 필드면으로 변경된 것을 알 수 있다.

 

이 때는 다음과 같이 일치하지 않은 필드만 표시 부분을 체크해서 일치하지 않는 부분만 확인할 수 있다.

 

2020년에 쓰이고 있는 할인을 할인율로 변경하기 위해 할인을 할인율에 드래그한다.

 

이익도 마찬가지로 수익에 드래그한다.

 

다시 체크를 해제하고 데이터를 확인해보면 4개년의 데이터가 제대로 합쳐진 것을 확인할 수 있다.

 

추가적으로 지역별 관리자와 반품 데이터를 추가한다.

 

우선 지역별 관리자 데이터를 결합하기위해  조인을 통해 결합한다. 

 

결과를 확인해보면 조인되는 과정에서 1832개의 데이터가 제외되는것을 확인할 수 있다.

 

데이터가 제외되는이유는 유니온 1에는 서울경기라는 필드가 존재하는데 지역별 관리자에는 존재하지 않는다.

 

데이터 정리를 통해 어떤 문제가 있는지 파악한다.

 

정리 후 '지역' 필드를 검색하면 서울경기 지역의 데이터가 1832개인 것을 확인할 수 있다.

 

서울경기를 클릭한 상태에서 검색했던 지역의 필터를 지워보면 다음과 같이 2020년에 데이터에 서울경기가 포함되어 있는 것을 알 수 있다.

 

다시 지역을 검색하고 서울경기와 수도권을 선택한 상태에서 수도권을 기준으로 그룹화를 진행한다.

 

그 후 다시 조인을 확인해보면 정상적으로 데이터가 결합된것을 확인할 수 있다.

 

조인에 문제가 없으니 마지막으로 반품 데이터도 조인한다.

 

조인한 데이터를 확인해보면 이번에도 10214개의 데이터가 제외되는 문제가 발생한 것을 알 수 있다.

 

반품 데이터의 특성상 반품된 주문건수에 대한 데이터만 들어오게되는데 실제로 반품이 되지 않은 데이터들이 제외되는 문제가 발생한 것이다. 하지만 알고자 하는것은 전체데이터에 대해서 반품된 데이터를 결합하는 것이기 때문에 조인1에 있는 데이터를 모두 가져와야한다.

 

조인1의 부분을 클릭하면 조인1에 있는 모든 데이터를 가져와 문제가 해결된것을 확인할 수 있다.

 

그 후 결합을 하면서 발생한 추가적인 데이터를 제거한다.

 

추가적으로 데이터의 유형이나 정리, 필터, 그룹화, 분할, 계산된 필드 등을 적용할 수 있다.

 

마지막으로 데이터 정리가 끝났다면 출력을 통해서 원하는 형식으로 데이터셋을 저장하거나 서버를 통해 게시할 수 있다.