사전 준비 사항

주의 사항

  • 개인정보를 포함하지 않도록 데이터 전송 전 마스킹 처리가 필수적으로 진행되어야 합니다.
  • 로그 배치는 백업하는 테이블 데이터를 원본 그대로 저장합니다.
    • 스트리밍 방식의 Fluentd나 클라이언트 로그 전송은 IP 등의 기본적인 데이터 파싱 처리를 수행하지만, 로그 배치 방식은 데이터 파싱 처리가 되지 않습니다.
  • 로그 데이터는 dateTime과 category 컬럼이 필수 입니다.
  • 로그 배치 전송은 대량 데이터를 한번에 업로드 하기 위한 기능 입니다. 그러므로, 행 기준으로 나누어진 여러개의 파일은 1개의 파일로 모아서 업로드하고, 실시간 데이터는 클라이언트 로그 전송이나 스트리밍 Fluentd 기능을 사용해주세요.

 

로그 정의 방법

로그 정의하기 페이지 이용

  • 로그 정의 방식을 통해 사전에 로그 스키마를 지정해 놓아야 합니다.
  • 로그 정의에 대한 상세 내용은 로그 정의하기에서 확인할 수 있습니다.
    • 로그 정의에서 설정하는 테이블명은 category 값과 동일해야 합니다.
    • 로그 정의를 하지 않고 로그 배치 전송 시 데이터 적재가 되지 않습니다.
  • 로그 배치는 로그 정의 시 dateTime, category를 필수 컬럼으로 사용합니다. 미전송 시 적재 되지 않습니다.
  • 로그 정의 수행 시 애널리틱스에서 사용하는 예약 필드가 포함 될 수 있습니다.

 

필수 컬럼 안내

배치 파일 로그는 두 가지 필수 컬럼을 가집니다.

컬럼명

데이터 타입

설명

샘플

dateTime TIMESTAMP 로그 배치를 추출 또는 업로드 일시

– timezone 제외 (KST)

“YYYY-MM-DD hh:mm:ss”
category STRING 로그 수집 백오피스에서 설정하는 카테고리 ID “account_table_snapshot”
  • 로그 배치에 dateTime 을 컬럼명으로 사용하고 있었다면 기존에 사용하던 dateTime을 다른 컬럼명으로 변경하여 전송을 권장합니다.
  • dateTime은 파티셔닝 기준 데이터로 사용하기에 꼭 배치 파일 로그 전송 또는 업로드 일시로 작성 되어야 합니다.

 

권한 신청하기

빅쿼리 권한 신청하기

  • 데이터 조회를 위한 빅쿼리 접속 및 조회 권한
  • 빅쿼리 권한 신청 시 GCS 업로드 권한이 함께 부여 됩니다.
  • Hive 콘솔 > Hive 애널리틱스 > 로그 정의 메뉴에서 빅쿼리 접근 기능을 신청하시면 빅쿼리 권한이 부여 됩니다.
  • 자세한 내용은 권한 신청 가이드를 확인하시기를 바랍니다. 권한 신청 가이드 확인