실외 미세먼지 데이터를 통한 미세먼지 예측
미세먼지는 눈에 보이지 않을 정도로 입자가 작은 먼지이다. 아황산가스, 납, 오존 등을 포함하는 대기 오염 물질로 호흡기 질환이나 암 등의 원인이 될 수 있는 물질이다.
미세먼지의 입자는 매우 작은 편으로 인체에서 필터 역할을 하는 폐도 걸러내지 못하기에 폐에 더 깊숙이 침투할 수 있다.
WHO IARC 지정 발암 물질인 미세먼지는 2017년부터 대한민국에서 심각한 문제로 대두되기 시작했다. 호흡기 질환이나 면역력 저하 등 인간의 건강과 밀접하게
관련이 있는 물질이기에 환경부는 미세먼지와 초미세먼지를 감축하기위한 계획을 세웠지만 2017년 12월 30일 처음으로 비상저감조치가 대한민국에서
처음으로 발령되었다. 최근에도 인천을 비롯한 대한민국 서부 지역에 비상저감조치를 시행하는 등 미세먼지의 위험도와 여파는 여전한 편이다.
코로나 이전에도 KF94 마스크가 유행하고 지역별로 그 날의 미세먼지의 정도를 나타내는 어플이 등장하는 등 미세먼지에 대한 국민들의 관심도도 매우 높은 편인
미세먼지를 분석하기 위해 본 분석에서는 순천향대에서 제공하는 65대의 측정기 중 2개의 측정기를 선택해 미세먼지 데이터를 기간별로 분석 후 예측해보았다.
본 분석에서는 2019년 12월에서 2020년 09월 까지의 실외 미세먼지 데이터를 기반으로 하고 있으며, 총 65개의 측정기의 ID와 해당 측정기의 위도, 경도 그리고 초미세먼지를 입력 변수로 타겟 변수는 미세먼지로 하였다. 측정기 중 가장 많은 기간을 포함할 수 있는 1912LYS134, 1912LYS141을 택해서 분석을 진행했다. 활용된 기간은 2019년 12월 18일부터 2020년 09월 30일이다.
활용한 데이터 셋은 서울 금천구의 미세먼지 추이로 다음과 같다.
데이터 셋 1
구분 | Key Columns | 원천 데이터셋 링크 | 비고 |
---|---|---|---|
PTC_VAL | 미세먼지 | https://www.bigdata-environment.kr/user/data_market/detail.do?id=a75212a0-31ef-11ea-ad66-1b2f93f3f455 | 환경 빅데이터 플랫폼 제공 |
ULFPTC_VAL | 초미세먼지 | ||
EQPMN_ID | 기기 ID |
구분 | 원천 데이터셋 링크 | 비고 |
---|---|---|
미세먼지 | https://www.bigdata-environment.kr/user/data_market/detail.do?id=a75212a0-31ef-11ea-ad66-1b2f93f3f455 |
수집한 데이터셋을 ‘EQPMN_ID’ 칼럼을 Key 값으로 하여 분석이 용이한 하나의 데이터셋으로 취합하였다. 이 때, 타겟 변수인 PTC_VAL과 시계열 분석을 위해 필요한 날짜의 결측치를 처리하고, 다른 변수의 결측치는 해당 변수의 평균값으로 대체했다.
본격적인 데이터 분석을 수행하기에 앞서 데이터의 전체적인 특성을 살펴보았다. 시간별 데이터라는 특성을 활용해서 2개의 측정기에 대한 시간별, 일별, 월별 미세먼지 추이 분석을 진행했다.
허나 해당 데이터의 변수는 기기 ID와 해당 기기가 설치된 위도와 경도, 초미세먼지 뿐이므로 상관 분석을 진행하기 어렵다고 판단되어 추가 데이터 셋을 이용해 예측 분석을 진행했다.
또한 시간의 결측치가 많은 관계로 시계열 예측 또한 추가 데이터 셋으로 진행했다.
추가한 다음 데이터 셋은 에어 코리아에서 제공하는 서울 중구의 미세먼지로 2019년, 1년간의 데이터와 2020년 1월의 미세먼지와 대기 정보 데이터이다.
PM10 (미세먼지)는 입자의 크기가 10㎛이하. 초미세먼지(PM2.5)는 입자의 크기가 2.5㎛이하의 먼지로 천식 발작, 호흡기 질환을 유발시킬 수 있는 오염 물질이다.
03(오존)는 0.1~0.3ppm에 이르면 코를 자극해 기침이 나고 눈이 따끔거리며 숨막힘 등의 증상이 나타날 수 있다. NO2(이산화질소)의 경우 혈관계의 작용을 낮추는 위험성이 존재하고 CO(일산화탄소)는 두통, 메스꺼움 등의 증상이 나타날 수 있다.
또한 SO2(아황산가스)는 폐렴, 천식 등을 유발시킬 수 있다.
데이터 셋 2
구분 | Key Columns | 원천 데이터셋 링크 | 비고 |
---|---|---|---|
PM10 | 미세먼지 | https://www.airkorea.or.kr/web/realSearch?pMENU_NO=97 | 에어 코리아 제공 |
PM2.5 | 초미세먼지 | ||
03 | 오존 | ||
NO2 | 이산화질소 | ||
CO | 일산화탄소 | ||
SO2 | 아황산가스 |
구분 | 원천 데이터셋 링크 | 비고 |
---|---|---|
미세먼지 | https://www.airkorea.or.kr/web/realSearch?pMENU_NO=97 |
수집한 데이터셋에서 미세먼지에 해당하는 PM10을 타겟으로 나머지 초미세먼지, 오존, 이산화질소, 일산화탄소, 아황산가스를 입력 변수를 이용해 시간별, 일별, 월별, 계절별, 상관 분석을 진행했다. 시간 데이터 특성 상 시계열 예측도 진행했다.
학습 기간은 2019년 1년 전체, 테스트 기간은 2020년 1월이다.
데이터 셋 1(서울 금천구, 2019년 12월~2020년 9월)의 시간별 미세먼지의 추이는 다음과 같다 . 이 때, PTC_VAL은 미세먼지이다.
1912LYS134, 1912LYS141 이라는 명칭의 실외 측정기를 이용해 분석을 진행했다.
일별 미세먼지의 추이는 다음과 같다.
데이터 셋 1(서울 금천구, 2019년 12월~2020년 9월)의 시간별 미세먼지의 추이는 다음과 같다 . 이 때, PTC_VAL은 미세먼지이다.
1912LYS134, 1912LYS141 이라는 명칭의 실외 측정기를 이용해 분석을 진행했다.
일별 미세먼지의 추이는 다음과 같다.
두 측정기 모두 새벽에서 출근 시간대까지 매우 높은 미세먼지 추이를 보여주며 오후에는 대체로 낮은 성향을 보였다.
비슷한 위치에 설치 되어있는 두 기기는 월별 평균에서 꽤나 다른 양상을 보였다.
1912LYS134는 비교적 고른 양상을 보였으나 1912LYS141은 월초와 월말에 높은 추이를 보였다.
데이터 셋 2(서울 중구, 2020년)의 시간별 미세먼지의 시간별 / 일별 / 월별 / 계절별과 다른 변수 간의 상관 관계 분석은 다음과 같다.
계절별 미세먼지의 추이는 다음과 같다.
데이터 셋 2(서울 중구, 2020년)의 시간별 미세먼지의 시간별 / 일별 / 월별 / 계절별과 다른 변수 간의 상관 관계 분석은 다음과 같다.
서울 중구의 시간별 미세먼지는 비교적 고른 편으로 새벽 6시부터 상승하는 추이를 보이고 12시에 가장 높은 양상을 보였다. 12시 이후에는 줄곧 하락하는 추이를 보인다.
계절별 미세먼지의 추이는 다음과 같다.
앞의 일별추이와 같이 겨울과 봄은 높은 미세먼지 추이를 보였다. 날씨가 더워지는 여름에 가장 최저치를 찍었고 가을부터 다시 상승하는 추이를 보였다.
일별 미세먼지의 추이는 다음과 같다.
주로 월 초에 미세먼지 농도가 높은 양상을 보여준다. 그 이후로는 고른 추이를 보인다.
월별 미세먼지의 추이는 다음과 같다.
늦겨울에서 봄에 해당하는 시기에 높은 미세먼지 추이를 보인다. 여름에는 비교적 낮은 편으로 날씨가 추워질수록 미세먼지는 상승하는 양상을 보인다.
미세먼지를 중심으로 초미세먼지, 오존(O3), 이산화질소(NO2), 일산화탄소(CO), 아황산가스(SO2)를 이용해 상관 분석을 진행했다. 상관 분석은 변수 간의 밀접한 정도를 분석하는 방법으로 1에 가까운 수일 수록 상관 관계가 높다는 것을 뜻한다.
초미세먼지(PM2.5)는 0.9의 수치로 상관 관계가 아주 높다. 반면 오존(O3)는 0,02의 수치로 상관 관계가 거의 없다는 결론을 내릴 수 있다. 나머지 이산화질소(NO2), 일산화탄소(CO), 아황산가스(SO2)의 경우 0.4~0.6의 수치를 보임으로 상관 관계가 다소 높은 편이라는 결론을 도출했다.
세 가지의 데이터에 대해서 시계열 예측을 진행한 결과는 다음과 같다.
두 측정기의 훈련 기간은 2019년 12월 18일에서 2020년 8월 31일, 테스트 기간은 2020년 9월이다. 1912LYS134의 결과가 1912LYS141보다 좋은 결과를 냈다.
에어코리아의 미세먼지 데이터에 대해 LSTM 예측을 진행한 결과는 다음과 같다. 훈련 기간은 2019년, 테스트 기간은 2020년 1월로 입력 변수는 미세먼지, 초미세먼지, 오존, 이산화질소, 일산화탄소, 아황산가스, 타겟 변수는 미세먼지이다.
이를 통해 미세먼지는 초미세먼지 뿐만이 아닌 아황산가스, 일산화탄소 등의 변수 등에도 많은 영향을 받는다는 것을 알 수 있다.
측정기 별 RMSE
측정기 | RMSE |
---|---|
1912LYS134 | 1.2 |
1912LYS141 | 18.82 |
에어코리아 - 중구 | 10.32 |
1912LYS134의 RMSE는 1.2로 나머지 두 측정기의 결과에 비해 좋은 수준의 예측 결과를 냈다.
X축은 훈련 횐수, Y축은 손실 값이다. 1912LYS134의 훈련셋 손실은 일정한 추이를 보이고 기울기도 굉장히 일정한 편이다. 오차도 매우 적은 편으로 정확도가 높은 결과를 보인다.
1912LYS141의 그래프는 검증 셋의 손실이 1912LYS134에 비해 오차는 매우 큰 편이다.
X축은 훈련 횟수, Y축은 손실 값이다. 에어코리아의 경우 초반에 비해 실제와 오차가 점점 커지는 추이가 보인다. 하지만 1912LYS141에 비해 굉장히 작은 편의 오차를 보인다.
측정 정확도 순은 1912LYS134, 에어코리아, 1912LYS141 순이라고 할 수 있다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.