지하철 역 특성으로 인한 지역경제 활성화 여부 예측
지하철 역 신규 개통에 따른 주택시장 및 인구수의 변화, 상권활성화에 대한 기대감이 커지고 있다.
실제로 2020년 09월 수인선 3단계가 전면 개통되며 주요 업무 지구로의 접근이 향상되었고 상권활성화에 대한 논의가 활발해진 바 있다.
이에 따라 지하철 역으로 인한 지역경제 활성화 여부에 대해 정량적인 예측을 시도하였다.
대중교통 인프라는 지역경제에 주요한 영향을 미치는 요인이므로 유의미한 분석 결과를 도출할 수 있을 것으로 기대된다.
본 분석에서는 2016년 기준으로 지하철 역 특성정보 데이터셋을 지하철 역을 특징지을 수 있는 입력변수로 선정하였으며, 목표변수가 되는 집값, 인구 수, 상권 변화 데이터셋은 각각 2017년, 2019년 기준이다. 이로써 지하철 역이 단기적(1년), 장기적(3년)으로 목표변수가 변화하는 데 영향을 미치는지를 예측하고, 지역경제를 활성화시킬 수 있는 방안을 도출하는 데 참고가 될 수 있는 자료를 제공하고자 한다.
활용한 데이터 셋은 다음과 같다.
구분 | Key Columns | 원천 데이터셋 링크 | 비고 |
---|---|---|---|
FK | 지하철 역명 | https://www.bigdata-forest.kr/product/PTP002901 | 산림 빅데이터 플랫폼 제공 |
FK | 지하철 역 코드 | ||
FK | 상권코드 | https://data.seoul.go.kr/dataList/OA-15580/S/1/datasetView.do | |
FK | 행정동코드 | https://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000052&nttId=79418 |
수집한 데이터셋의 ‘지하철 역명’ 칼럼을 Key 값으로 하고 데이터 전처리 과정을 거쳐, 분석이 용이한 하나의 데이터셋으로 취합하였다. 이때 틀린 값을 확인하고 대체하였으며, 결측치를 처리하는 과정을 거쳤다.
본격적인 데이터 분석을 수행하기에 앞서 데이터의 전체적인 특성을 살펴보았고, 수치형 변수의 경우 이상치 처리, 기초 통계량 확인 및 Rescaling 작업을 진행하였으며 범주형 변수의 경우 범주의 비율을 살펴보았다.
자치구 별로 지하철 역을 그룹화한 뒤, 각 편의시설 유무에 따른 지하철 역의 개수를 시각화하였다.
(0:없음, 1:있음)
호선 별로 지하철 역을 그룹화한 뒤, 각 편의시설 유무에 따른 지하철 역의 개수를 시각화하였다.
(0:없음, 1:있음)
클러스터링을 통해 유사한 성격을 가지는 입력변수들을 Grouping 하였으며, 이후 군집 별 평균 및 비율을 확인하고 지하철 특성의 영향을 받는 것으로 판단되는 목표변수 별로 평균/비율의 차이가 가장 큰 그룹들을 선정하고 시각화한 결과는 다음과 같다. 군집 간 평균/비율 차이에 대해 지하철 특성의 영향을 받는 것으로 판단되는 목표변수를 선정하여 시각화한 결과는 다음과 같다.
집값
지하철 이용객수가 많고 휠체어 경사로 설치대수가 많은 그룹에서 연립주택 가격이 높은 수치를 보였다. 따라서 역 주변 유동인구가 많고 역 내 편의시설이 잘 갖춰져 있는 곳에 사람들의 주거 선호가 높다는 것을 짐작해볼 수 있다.
인구 수
거주 세대 수는 환승 주차장과 장애인 편의시설이 많은 그룹에서 높은 수치를 보였다. 즉, 역 내 편의시설이 거주 세대 수에 영향을 줄 수 있다는 것을 추론해볼 수 있다.
환승 주차장은 보통 외곽이나 시도경계지역에 위치해 있으며 해당 지역에 고령자 거주인구 수가 많은 것으로 판단된다. 더불어 자전거보관대수와 휠체어리프트 개수 등 고령자들이 일상생활을 살며 필요한 편의시설이 잘 구비된 역에 거주인구 수가 높은 것을 알 수 있다.
상권
지하철 이용객 수가 많은 곳에 집객시설 적은 수치를 보이는 의외의 결과가 도출되었다. 이때 그룹0에 속한 역들(홍대입구역, 김포공항역, 고속터미널역 등)은 교통 편의성이 높아 다양한 대중교통을 이용할 수 있기 때문에 상대적으로 지하철 이용객 수는 적은 것으로 보인다. 그러나 해당 군집의 번화가, 공항, 터미널이라는 특성상 집객시설 수 자체는 훨씬 많은 것으로 보여진다.
집객시설 수는 단기적으로는 그룹의 차이가 명확하게 나타났지만, 장기적으로는 그룹의 차이가 두드러지지 않았다. 따라서 장기적으로는 입력변수(지하철 특성)가 미치는 영향력이 감소할 것으로 짐작할 수 있다.
Random Forest Classifier, XGBOOST, Logistic Regression을 분류 모델로 선정하였으며, 변수 별로 클래스의 비율이 다르기 때문에 ROC, AUC 값을 기준으로 모델 성능을 평가하였다.
- Random Forest Classifier, XGBOOST, Logistic Regression을 분류 모델로 선정하였으며, 성능을 높이기 위해 GridSearchCV를 통해 최적 파라미터(Hyper Parameters)를 선정하고 튜닝하는 작업을 거쳤다.
- 모든 목표변수에 대하여 AUC 값을 산출하였으며, 이때 EDA 과정에서 수립한 가설을 검증하기 위하여 유의미한 목표변수의 AUC 값을 정리하였다.
개념 | 정의 |
---|---|
ROC (Receiver Operating Characteristic) |
모든 임계값에서 분류 모델의 성능을 보여주는 그래프 |
AUC(Area Under Curve) | ROC 곡선 아래 영역 * AUC가 높으면 분류 모델의 성능이 좋다는 것을 의미함 |
Random Forest | 분류, 회귀분석에 사용되는 앙상블 학습 방법의 일종으로, 학습과정에서 구성한 다수의 Decision Tree로부터 분류 또는 예측을 출력함 |
XGBoost | 분류, 회귀분석에 사용되는 앙상블 학습 방법의 일종으로, Boosting 기법을 이용하여 병렬 학습함 |
Logistic Regression | 종속변수가 범주형 데이터이고, 독립변수의 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉨 |
구분 | 목표변수 | AUC |
---|---|---|
집값 | 아파트 가격(1년) | 0.75 |
아파트 가격(3년) | 0.74 | |
연립주택 가격(1년) | 0.57 | |
연립주택 가격(3년) | 0.6 | |
인구 수 | 총 직장인구(1년) | 0.69 |
총 직장인구(3년) | 0.6 | |
여성 직장인구(1년) | 0.61 | |
여성 직장인구(3년) | 0.61 | |
60대 이상 직장인구(1년) | 0.63 | |
60대 이상 직장인구(3년) | 0.55 | |
거주 세대 수(1년) | 0.6 | |
거주 세대 수(3년) | 0.58 | |
고령자 거주인구(1년) | 0.64 | |
고령자 거주인구(3년) | 0.66 | |
상권 변화 | 지출 총 금액(1년) | 0.6 |
지출 총 금액(3년) | 0.5 | |
필수 지출금액(1년) | 식료품(0.62), 의료비(0.68), 생활용품(0.54) | |
필수 지출금액(3년) | 식료품(0.62), 의료비(0.68), 생활용품(0.64) | |
선택 지출금액(1년) | 의류/신발(0.6), 문화(0.62) | |
선택 지출금액(3년) | 의류/신발(0.65), 문화(0.68) | |
집객시설 수(1년) | 0.65 | |
집객시설 수(3년) | 0.54 |
데이터 분석 과정을 통해 지하철 특성의 영향을 받는 것으로 예상되는 목표변수를 선정하였고 이를 바탕으로 가설을 수립하였다. 위의 예측 과정을 통해 앞서 수립한 가설을 검증한 결과는 다음과 같다.
가설1: 지하철 특성을 바탕으로 집값의 상승/하향 여부를 알아볼 수 있을까?
- 1-1. 지하철 특성으로 아파트 가격의 상승/하향 여부를 알아볼 수 있을까?
- 1-2. 지하철 특성으로 연립주택 가격의 상승/하향 여부를 알아볼 수 있을까?
가설2: 지하철 특성을 바탕으로 역 주변 인구 수의 상승/하향 여부를 알아볼 수 있을까?
- 2-1. 지하철 특성으로 역 주변 직장인구 수의 상승/하향 여부를 알아볼 수 있을까?
- 2-2. 지하철 특성으로 역 주변 거주인구 수의 상승/하향 여부를 알아볼 수 있을까?
가설3: 지하철 특성을 바탕으로 역 주변 상권의 변화 여부를 알아볼 수 있을까?
- 3-1. 지하철 특성으로 역 별 지출금액의 상승/하향 여부를 알아볼 수 있을까?
- 3-2. 지하철 특성으로 역 별 집객시설 수의 상승/하향 여부를 알아볼 수 있을까?
가설1의 결과를 통해 아파트나 연립주택의 집값 상승/하향 여부를 예측하고자 할 때 지하철역 특성을 참고해 볼 수 있다.
가설2의 결과를 통해 지하철역 특성은 직장인구 중 여성과 60대 이상 직장인구 수에 영향을 미치는 것을 알 수 있고, 거주 세대 수와 고령자 거주인구 수에도 영향을 미치는 것을 알 수 있다. 특히, 고령의 직장인구나 거주인구를 파악할 때 지하철역 특성을 고려해 볼 수 있다.
가설3의 결과를 통해 역 주변의 상권을 형성하는 데 지하철역 특성을 고려해 볼 수 있고, 집객시설을 유치하는 데 단기적으로 주변 지하철역 특성을 고려해 볼 수 있다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.