이전 분석에서 <음식점 수>와 <코로나 확진자 수>의 상관성을 확인하였으나 <상관관계>와 <인과관계>는 구별해야 하므로 이것으로 <음식점>이 <코로나 발생>의 근원지라고 결론 내릴 수 없다.
상관관계는 증명되었으나, 인과관계를 확인하기 위해 <코로나 확진>에 다른 어떤 요소들이 영향을 미친 것인지 여러 데이터를 융합해 추가 분석을 진행한 결과
<코로나 발생>에 가장 큰 영향을 주는 것은 <인구 수>라고 판단되었으며 인구와 함께 <음식점 수>와 <음식물 쓰레기>도 많아진 효과로 <음식점 수>에 따라 <코로나 발생>이 늘어나는 것처럼 “보여진” 것이라 결론지었다.
[ 시사점 ]
1. 추가로 <인구 밀도> 고려
· 단순히 인구가 많아서 그에 비례해 코로나 환자가 많은 것인지, 지역의 면적까지 고려한 <면적 대비 인구 밀도>가 높음으로 인해 접촉이 많아 코로나가 많이 발생한 것인지 확인할 필요가 있다.
2. 데이터 수집의 기준과 시기 일치
· 여러 데이터를 통합하려면 동일한 기준(수집 시기 등)에 의해 수집된 데이터라야 한다.
· 각 데이터의 기준과 수집시기가 다르므로 (ex:상권-2020년, 코로나-2021년 실시간) 이번 분석의 의미를 과도하게 확장 해석하는 것은 경계해야 한다.
3. <인과관계>의 심화 탐색 필요
· “실무적으로” 매우 강한 상관관계가 있을 경우 “인과관계를 추단”한다.
· 인구 수와 코로나 발생의 상관관계가 0.87로서 매우 강하여 인과관계를 추단하였으나 잘 설계한 추가 분석에 의해 “추단된 인과관계가 없음이 증명”될 수도 있다.
[ 데이터 스토리 총정리 및 향후 과제 ]
데이터를 통해 코로나와 쓰레기 발생과의 관계를 새로이 규명하고 코로나 시국을 겪는 소상공인의 어려움 등 당면한 문제를 해결하는데 도움을 주려는 의도에서 이 스토리를 기획하게 되었다.
“바로 현장에 적용가능한 전략”을 도출하기에는 데이터의 상황 등 여러 한계와 마주쳤으나 최선을 다해 다양한 시도를 통해 상황을 다각도로 파악하고 흥미롭고 발전 가능성 있는 인사이트를 이끌어낸 과정이 의미 있었다.
<코로나>와 관련된 4편의 데이터 스토리 시리즈를 마무리하며 향후, 현재의 데이터를 업데이트하고 다양한 추가 데이터를 구하여 새로운 목적과 그에 따른 분석을 고민하는 것이 다음 과제임을 밝힌다.