이슈 키워드를 통한 과거 주요 이슈 및 트렌드 분석
이슈 키워드는 금융 시장에 대한 트렌드를 반영하고 사회의 영향력에 따라 즉각적으로 변동하는 금융 시장의 현 상태를 보여준다.
과거의 트위터 소셜 네트워크에서 발생하고 화제가 되었던 주요 이슈에 대한 키워드를 판단하여 과거 트렌드를 분석할 수 있으며,
현재의 주요 이슈와 비교하여 앞으로의 전망을 판단할 수 있는 근거로 사용할 수 있다.
과거의 트렌드를 분석할 수 있을 뿐만 아니라, 매일 발생하는 Top 20개의 키워드를 통해 주요 관심사 및 사회적 트렌드 변화를 감지할 수 있게 되며,
해당 자료를 통해 빈도수가 급상승한 키워드를 분석하여 급상승 가능성이 있는 키워드들을 예측할 수 있는 기대효과를 예상해 볼 수 있다.
본 분석에서는 2017년 1월부터 2020년 9월까지의 트위터에서 발생한 금융 관련 이슈 키워드 데이터셋을 특징지을 수 있는 입력변수로 선정하였으며, 일별 주요 관심사와 과거의 사회적 트렌드를 확인 및 변화되는 것을 파악할 수 있다. 각 년도별로 이슈 키워드를 통해 그 해의 관심 키워드를 확인할 수 있고 각각의 변수의 관계 측정을 통해 키워드의 급상승에 영향을 주는 변수가 존재하는지를 확인하여 사회적 트렌드 변화에 대한 방안을 도출하는 데 참고가 될 수 있는 자료를 제공하고자 한다.
활용한 데이터 셋은 다음과 같다.
구분 | Key Columns | 원천 데이터셋 링크 | 비고 |
---|---|---|---|
FK | 기준일자 | https://www.bigdata-finance.kr/dataset/datasetView.do?datastId=SET0500001 | 금융 빅데이터 플랫폼 제공 |
FK | 키워드명 | ||
FK | 급상승 점수 값 | ||
FK | 키워드 문서 수 |
수집한 데이터셋을 ‘기준일자’ 칼럼을 Key 값으로 하여 분석을 진행하였고, 이때 결측치를 확인하고 처리하는 과정을 거쳤다.
본격적인 데이터 분석을 수행하기에 앞서 데이터의 전체적인 특성을 살펴보았고, 각 변수의 관계 측정, 변수의 수치 확인 작업 등을 진행하였다.
2017년부터 2020년까지 일일 급상승 키워드가 상위 20위 안에 포함된 총 횟수는 다음과 같고, 이를 통해 일별 주요 관심사와 사회적 트렌드의 변화를 파악할 수 있다.
년도별 급상승한 상위 순위 10개의 키워드는 다음과 같다.
년도별 상위 키워드 빈도 수 Top10은 다음과 같다.
각 년도별 급상승 키워드 Top 10개와 키워드 빈도 수 Top 10개를 각각 비교했을 때 각 급상승 키워드와 키워드 빈도 수에 대한 항목이 다른 것으로 보아 급상승한 키워드가 검색 빈도 수가 많은 것으로 단정 지을 수 없다.
연도별 상위 10개의 급상승 키워드와 키워드 빈도수를 표로 정리하면 다음과 같다.
연도 | 2017 | 2018 | 2019 | 2020 | ||||
---|---|---|---|---|---|---|---|---|
순위 | 급상승 키워드 | 키워드 빈도수 | 급상승 키워드 | 키워드 빈도수 | 급상승 키워드 | 키워드 빈도수 | 급상승 키워드 | 키워드 빈도수 |
1 | 정규직 | 보이콧 | 임금 | 최저임금 | 이자 | 보이콧 | 영업이익 | 양육비 |
2 | 비정규직 | 후원금 | 최저임금 | 보이콧 | 경비 | 장학금 | 블랙스완 | 협업 |
3 | 법정 부담금 |
최저임금 | 주휴수당 | 연봉 | 보이콧 | 기부금 | 카르텔 | 손해배상 |
4 | 재산세 | 장학금 | 임금체계 | 마케팅 | 보이콧 | 협업 | 긴급재난지원금 | 매출 |
5 | 세무 | 연봉 | 상여금 | 양육비 | 매각 | 아세안 | 공황 | 기부금 |
6 | 지방세 | 마케팅 | 저임금 | 카르텔 | 비정규직 | 크러쉬 | 4차산업 | 블랙스완 |
7 | 탈세 | 해고 | 정규직 | 매출 | 개별 공시지가 |
상장 | 계좌이체 | 연봉 |
8 | 야근수당 | 물가 | 통상임금 | 후원금 | 공시지가 | 매출 | 연봉 | 증세 |
9 | 계좌번호 | 적자 | 비정규직 | 이율 | 감리 | 정규직 | 배당금 | 재택근무 |
10 | 예산 | 증세 | 퇴직금 | 소득 | 인프라 | 재능기부 | 스왑 | 로또 |
2017년부터 2020년까지의 Word Cloud는 다음과 같다.
2017년부터 2020년까지의 상위 키워드 빈도 수는 다음과 같다.
데이터 분석 과정을 통해서, 과거의 트렌드 분석 및 변수 관계 확인 등을 확인하였다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.