한강의 용존 산소량을 통한 수질 예측
한강은 대한민국의 수도인 서울을 가로지르는 큰 강이다. 서울 시민들이 이용하는 식수인 아리수는 한강을 바탕으로 하고 있고
SNS에 피크닉을 한강으로 가는 것이 트렌드가 됐을 정도로 한강은 시민들의 생활과 밀접하게 관련이 있는 강이기도 하다.
하지만 그 이전에 강은 수분을 공급하고 물고기가 살 수 있는 환경을 만드는 등의 역할을 하는 만큼 중요한 서울의 생태계 자원이라고 할 수 있다.
그러한 중요성으로 인해 서울시의 환경연구부도 한강의 수질을 감시 및 관리를 위해 수질 자동 측정망을 운영하고 있다.
이러한 수질 측정망에 측정되는 요소 중 하나인 용존 산소량은 해당 강의 수질과 밀접한 관련이 있다.
오염 물질이 다량 있을 시 강은 용존 산소를 소모하기에 용존 산소량이 풍부할 수록 좋은 생태계를 가진 강이라고 할 수 있기 때문이다.
약간의 오염 물질이 존재해도 용존 산소량이 풍부할 시 꽤 괜찮은 생태계를 가진 강으로 간주하므로
본 분석에서는 용존 산소량과 다른 요소들을 기반으로 기간에 대한 수질 분석과 예측을 진행할 것이다.
본 분석은 1996년 1월에서 2020년 12월까지 서울특별시 송파구 잠실동 한강의 수질 측정망(하천) 지점에서 측정된 자료를 기반으로 하고 있다.
활용한 데이터 셋은 서울특별시 송파구 잠실동 한강 수질 측정망에서 측정한 자료이다.
구분 | Key Columns | 설명 | 비고 |
---|---|---|---|
DO | 용존 산소량 | 물 속에 녹아있는 산소량 높을 수록 수질이 좋음 |
http://water.nier.go.kr/waterData/generalSearch.do 물환경정보시스템 제공 |
BOD | 생화학적 산소 요구량 | 물 속의 미생물이 유기물을 분해하는데 필요한 산소 소모량 높을 수록 수질이 낮음 |
|
COD | 화학적 산소 요구량 | 유기물이 오염 물질을 산화시킬 때 필요한 산소량 높을 수록 수질이 낮음 |
|
SS | 부유물질량 | 물 속에 함유된 부유 물질의 양 높을 수록 수질이 낮음 |
수집한 데이터 셋 중 ‘DO’를 타겟으로 해서 데이터 셋으로 취합한 후, 예측을 진행하기 전 데이터 분석을 진행하였다. 많은 컬럼 중 앞의 4가지 컬럼을 골라냈다.
월별 데이터라는 특성을 이용해 월별, 년도별, 계절별 분석을 진행하고 각 요소 별의 상관 관계를 보기 위해 상관 분석을 진행했다.
구분 | 원천 데이터셋 링크 | 비고 |
---|---|---|
용존 산소량 | http://water.nier.go.kr/waterData/generalSearch.do |
수집한 데이터셋에서 용존 산소량에 해당하는 DO를 타겟으로 나머지 화학적 산소 요구량, 생화학적 산소 요구량, 부유 물질 양을 입력 변수를 이용해 월별, 년도별, 계절별, 상관 분석을 진행했다. 시간 데이터 특성을 가지고 있기에 시계열 예측 또한 진행했다.
위의 그래프는 1월에서 12월 까지 용존 산소량의 평균 추이에 대한 그래프이다. 용존 산소량은 대체로 날씨가 추워지는 10월부터 상승하는 추이를 보인다. 그리고 2월에 용존 산소량의 최고치를 찍고 온도가 높아지는 7월까지 하락하는 주기성이 있는 추이를 보인다. 이를 통해 용존 산소량의 수치는 수온과 관련이 있다는 것을 알 수 있다.
위의 그래프는 1996년부터 2020년까지의 평균 용존 산소량 추이 그래프이다. 용존 산소량의 경우 1999년에 크게 하락하고 다시 급상승하는 추이를 보인다.
* 이 이유는 1994년 이후 계속되는 가뭄과 하수처리장 등의 건설 지연, 생활 하수 등의 유입량 증가, 숙박 시설 등의 건설로 수질이 악화가 되었기 때문이다.
그러나 전국적인 차원인 ‘한강수계 수질관리 특별대책’ 등으로 1998년부터 용존 산소량이 증가하는 추이를 보이고 있다.
2000년대에 들어선 이후 용존 산소량은 급격히 더욱 증가하는 추이를 보이고 있고 2010년대부터는 2000년대보다는 상향 평준화된 상태로 상승, 하강하는 추이를 반복하고 있다.
왼쪽의 표는 예측을 진행한 입력 변수에 대한 상관 분석을 진행한 결과이다.
입력 변수는 DO(용존 산소량), BOD(생화학적 용존 산소량), COD(화학적 용존 산소량), SS(부유 물질량)이다.
일반적으로 생태계가 좋을 수록 DO는 상승하고 BOD, COD, SS는 하락하고 생태계의 환경이 나쁠 수록 그 반대라고 알려져 있다. 예를 들어, 유기물이 증가할 시 이를 분해하기 위해 산소가 소모되기 때문에 DO는 하락하고 BOD는 상승하기 때문이다.
먼저 예측 변수인 DO에 대한 상관 분석의 결과는 모든 변수가 DO와 거의 상관 관계가 없다고 볼 수 있다. 그나마 유의미한 수치를 보이는 COD도 불과 0.23이라는 거의 상관이 없는 수치를 보이고 있다.
BOD의 경우 COD는 0.56이라는 유의미한 상관 관계를 보이는 반면 SS와는 거의 상관이 없는 수치를 보인다.
COD는 DO, BOD, SS 모든 변수와 유의미한 상관 관계를 보였다.
결론적으로 예측 변수인 DO와 다른 변수 간의 관계는 그렇게 크지 않았다.
위의 그래프는 계절별 용존 산소량의 평균에 대한 그래프이다. 앞의 월별 그래프의 분석 결과와 마찬가지로 수온이 낮은 겨울과 수온이 높은 여름의 용존 산소량 평균 값의 차이가 큰 편이다. 사실상 여름과 가을은 그렇게 큰 차이를 보이지 않고 있고 겨울부터 시작해서 봄을 지나 여름까지 용존 산소량이 하락하는 추이를 보인다.
이로 인해 용존 산소량과 기온은 반비례 관계로 관련이 있다는 것을 알 수 있다.
시계열 예측을 진행한 결과는 다음과 같다.
학습 기간은 1996년~ 2018년 6월, 테스트 기간은 2018년 7월 ~ 2020년 11월이다.
월별 용존 산소량의 예측과 실측치 그래프이다. X축은 월, Y축은 용존 산소량이다.
구분 | |
---|---|
MAPE | 12.34 |
RMSE | 1.59 |
월별 용존 산소량의 검증, 손실 그래프이다. X축은 학습 횟수, Y축은 손실 값이다.
훈련 셋과 검증 셋에서 측정한 성능의 간격은 크지 않은 편이고 일정한 추이를 보인다.
MAPE는 약 12%, RMSE는 1.59의 결과가 나왔다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.