코로나 바이러스 감염증 (COVID-19) 현황 데이터 시각화
코로나 바이러스는 올해 초부터 정치, 경제, 사회, 문화를 통틀어 국가 전체에 큰 영향을 미쳤다.
바이러스는 사람을 매개로 전세계 곳곳까지 빠르게 확산되었지만, 혼란 속에서도 사람들의 노력으로 감염에 관한 여러 데이터가 확보되었다.
코로나 바이러스가 남긴 데이터의 패턴을 찾아 다양한 기법으로 분석을 통해 확산을 예측한다면, 최적의 방역
조치를 결정하는데 도움이 될 것이고, 우리는 좀 더 빠르게 코로나 바이러스를 극복할 수 있을 것이다.
본 분석에서는 코로나 바이러스의 확산 현황 데이터를 통해 코로나 바이러스의 특성을 분석해보고자 한다.
본 분석에서는 KDX 한국데이터거래소의 코로나바이러스감염증-19(COVID-19) 현황 데이터셋을 이용하여 국내 및 해외의 코로나 바이러스 확산 현황을 시각화 하였다. 이로써 코로나 바이러스가 확산되는 패턴을 연구하고, 향후 적절한 방역조치를 마련하는데 참고가 될 수 있는 자료를 제공하고자 한다.
활용한 데이터 셋은 다음과 같다.
구분 | 원천 데이터셋 링크 | 비고 |
---|---|---|
코로나19 감염현황 | https://kdx.kr/data/view?product_id=25918 | KDX 한국데이터거래소 플랫폼 제공 |
코로나19 연령별·성별 감염현황 | https://kdx.kr/data/view?product_id=25918 | KDX 한국데이터거래소 플랫폼 제공 |
코로나19 시·도발생 현황 | https://kdx.kr/data/view?product_id=25918 | KDX 한국데이터거래소 플랫폼 제공 |
코로나19 해외발생 현황 | https://kdx.kr/data/view?product_id=25918 | KDX 한국데이터거래소 플랫폼 제공 |
코로나19 감염현황 (Covid19InfState.xlsx)
컬럼 명 | 의미 |
---|---|
seq | 고유값 |
stateDt | 기준일 |
stateTime | 기준시간 |
decideCnt | 확진자 수 |
clearCnt | 격리해제 수 |
examCnt | 검사진행 수 |
deathCnt | 사망자 수 |
careCnt | 치료중 환자 수 |
resultNegCnt | 결과 음성 수 |
accExamCnt | 누적 검사 수 |
accExamCompCnt | 누적 검사 완료 수 |
accDefRate | 누적 환진률 |
createDt | 등록일시분초 |
updateDt | 수정일시분초 |
컬럼 수 | 14 |
로우 수 | 291 |
기간 | 2020-01-01 ~ 2020-10-14 |
코로나19 연령별·성별 감염현황 (Covid19GenAgeCaseInf.xlsx)
컬럼 명 | 의미 |
---|---|
seq | 고유값 |
Gubun | 시도명(한글) |
confCase | 시도명(중국어) |
confCaseRate | 시도명(영어) |
death | 사망자 수 |
deathRate | 전일대비 증감 수 |
criticalRate | 격리 해제 수 |
createDt | 등록일시분초 |
updateDt | 수정일시분초 |
컬럼 수 | 9 |
로우 수 | 2080 |
기간 | 2020-04-02 ~ 2020-10-13 |
코로나19 시·도발생 현황 (Covid19SidoInfState.xlsx)
컬럼 명 | 의미 |
---|---|
seq | 고유값 |
stdDay | 기준일시 |
gubun | 시도명(한글) |
gubunCn | 시도명(중국어) |
gubunEn | 시도명(영어) |
deathCnt | 사망자 수 |
incDec | 전일대비 증감 수 |
isolClearCnt | 격리 해제 수 |
qurRate | 10만명당 발생률 |
defCnt | 확진자 수 |
isolIngCnt | 격리중 환자수 |
overFlowCnt | 해외유입 수 |
localOccCnt | 지역발생 수 |
createDt | 등록일시분초 |
updateDt | 수정일시분초 |
컬럼 수 | 15 |
로우 수 | 4529 |
기간 | 2020-03-01 ~ 2020-10-14 |
코로나19 해외발생 현황 (CovidNatInfState.xlsx)
컬럼 명 | 의미 |
---|---|
seq | 고유값 |
nationNm | 국가명 |
nationNmEn | 국가명(영문) |
nationNmCn | 국가명(중문) |
natDeathCnt | 국가별 사망자 수 |
natDefCnt | 국가별 확진자 수 |
stdDay | 기준일시 |
createDt | 등록일시분초 |
updateDt | 수정일시분초 |
areaNm | 지역명 |
areaNmEn | 지역명(영문) |
areaNmCn | 지역명(중문) |
natDeathRate | 확진률 대비 사망률 |
컬럼 수 | 13 |
로우 수 | 45328 |
기간 | 2020-03-09 ~ 2020-10-14 |
수집한 데이터셋의 중복된 날짜를 제거하기 위해, 동일한 날짜에 시간순으로 나열된 데이터는 마지막 시간을 제외하고 제거하는 방식으로 데이터를 일(day) 단위 수정하였으며, 탐색적 분석을 통해 2020년 8월 2일의 이상치 데이터를 제거하고 분석하였다.
국내 코로나 확진자의 성별, 연령대, 지역별 상대적비율을 시각화 한 것은 다음과 같다.
국내 코로나 환자의 수를 다양한 기준을 통해, 시간순으로 시각화 한 것은 다음과 같다.
- 시간에 따른 검사 수를 살펴보았다. 매일 일정한 수를 검사하는게 아니라 날짜별로 검사수의 변동폭이 상당히 큰 것을 확인할 수 있다. 검사수가 많으면 확진자 수가 많은것은 당연하므로, 코로나 확산 정도는 검사수와 확진자 수를 동시에 고려해서 판단해야 함을 유추할 수 있다.
- 시간에 따른 확진 확률을 살펴보았다. 매우 변동폭이 큰 것을 확인할 수 있다. 확진자 수와 마찬가지로 확진 확률은 코로나의 확산세를 살펴볼수 있는 지표로 활용할 수 있다.
- 시간에 따른 확진자 수와 치료중인 사람 수를 동시에 시각화해서 살펴보았다. 치료중인 사람 수의 하락 추세는 확진자의 감소 추세보다 늦게 떨어지는 것을 알 수 있다.
- 시간에 따른 확진자 수와 확진 확률을 각각 0과 1사이 범위로 만들어 추이를 비교해 보았다. 확진자 수가 줄어들 때도, 확진 확률은 늘고있는 구간이 몇 군데 있음을 확인했다. 이로써 확진자 수만으로 코로나의 확산세를 판단해선 안됨을 알 수 있다.
위의 시각화 과정을 통한 분석 결과는 다음과 같다.
- 결론1:
국내 코로나 확진자 수는 지역별로 편차가 심하고, 인구수에 정확히 비례하지는 않는 것을 확인하였다.
- 결론2:
확진자 수가 감소해도 검사수가 적어서 확진자 수가 적게 나오는 경우도 있기 때문에 확산세를 정확히 판단하기 위해서는 확진자 수와 확진 확률을 동시에 고려해야 한다.
- 결론3:
코로나 사망률은 50대 이상이 98퍼센트 이상을 차지한다. 고령일수록 코로나 바이러스에 더욱 취약한 것을 알 수 있다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.