임산물 및 농산물 월별 가격 데이터에 대한 분석
사람들의 소득수준과 삶의 질의 향상으로 청정임산물과 같은 건강식품에 대한 관심이 높아지면서 소비패턴이 급격하게
변화되고 있다. 이에 따라 소비자의 소비패턴을 분석하여 이를 반영한 생산과 유통의 전략 수립은 판매 증대에 가장 중요한 요인이 되고 있다.
한편 임삼물의 가격은 소비자의 소비패턴을 반영하는 동시에 소비패턴에 영향을 주는 중요한 요소 중 하나이다.
다양한 임산물의 가격을 분석하는 것을 통해 임산물 가격의 특징과 변화 패턴을 장악해 생산과 유통의 전략 수립에 도움을 줄 수 있다.
본 분석은 (주)우림인포텍에서 제공하는 임산물 및 농산물의 월 단위의 품목별 평균가격 데이터를 사용했다. 산림조합에서는 서비스하고 있는 산림조합의 유통정보시스템 데이터와 연계하여 월별 유통 구분별 평균가격 정보를 제공하고 있다. 본 분석에는 2008년 7월부터 2019년 2월까지의 농림식품 도매가격 정보를 사용하고 있다.
활용한 데이터 셋은 다음과 같다.
컬럼명 | 설명 | 원천 데이터셋 링크 |
---|---|---|
DATA_STNDD_DT | 데이터기준일자 | 산림 빅데이터 플랫폼 제공 : https://www.bigdata-forest.kr/product/DTS001001 |
FOPRD_GOODS_PRLST_CD | 임산물품목코드 | |
FOPRD_PRLST_NM | 임산물품목명 | |
PRLST_DTL_NM | 품목상세명 | |
EXMNN_TODAY_PRICE | 조사당일가격 | |
FOPRD_GRCD | 임산물등급코드 | |
FOPRD_GRAD_NM | 임산물등급명 |
구분 | 원천 데이터셋 링크 | 비고 |
---|---|---|
임산물 가격 | https://www.bigdata-forest.kr/product/DTS001001 | |
잣 산지 정보 | https://www.jejunews.com/news/articleView.html?idxno=2169137 | 뉴스 정보 |
본격적인 데이터 분석을 수행하기에 앞서 데이터의 전체적인 특성을 살펴보았고 기조적인 데이터 통계 작업을 진행하였으며 날짜형 변수의 경우 적절한 형변환 작업을 진행하였다.
이후 월별 및 연별 데이터의 특성을 파악하기 위해 새로 컬럼을 생성하고 데이터를 재조합하는 작업을 진행하였다.
수치형 변수의 경우 이상치 처리 작업을 진행하였으며 범주형 변수의 경우 범주의 비율을 살펴보았다.
임산물 가격 데이터는 월별로 데이터를 제공하고 있는데 특정 품목에 대해 특정 월에 대한 데이터가 여러 개 존재한다는 것을 발견했다.
한 품목에 대해 월별 데이터가 여러 개 있는 데이터에 대해 품목별로 데이터 구룹핑을 하고 그 결과를 다시 월별로 그룹핑하여 평균값을 품목의 월별 가격으로 사용해 데이터 분석을 진행했다.
제공하는 데이터 컬럼 중 임산물 품목 코드와 임산물 품목명이 1:1 매핑 관계라는 것을 파악하고 임산물 품목 코드 데이터는 사용하지 않고 임산물 품목명만을 식별자로 사용해 데이터를 분석했다.
또한 제공하고 있는 데이터는 원산지 정보를 포함하고 있지만 모든 품목의 원산지가 모두 동일한 ‘국산’으로 임산물 원산지와 가격 사이의 관계를 파악할 수 없다고 판단하여 데이터 분석에서 해당 컬럼을 사용하지 않았다.
임산물 품목별 데이터 분석 결과는 다음과 같다.
- 1.
분석을 통해 임산물 및 농산물 월별 가격 데이터는 총 45개 품목의 월별 가격 데이터를 제공하고 있다는 것을 알 수 있다.
- 2.
각 품목별로 제공하고 있는 데이터의 개수는 서로 다르며 그중 밤 가격 데이터가 전체 데이터의 15.4%를 차지해 제일 많고 그 다음으로는 전체 데이터의 15.2%와 10.2%를 차지하는 건고추와 생표고라는 것을 알 수 있다.
- 3.
제공하는 데이터의 개수가 10개도 되지 않는 품목이 11개 존재하는데 이들은 데이터의 양이 너무 적어 가격 변동 트렌드를 예측하기조차 쉽지 않을 것으로 예상된다.
- 4.
제공하는 데이터 중에 등급이 상인 품목의 데이터 개수가 5,073건으로 제일 많고 그 다음이 보통 등급이고 특 등급의 데이터 건수가 제일 적다.
- 1.
월별 가격 변동 라인 그래프에 굴절이 많다는 것은 데이터의 개수가 적은 이유 때문인 것으로 판단된다.
- 2.
데이터의 양이 적은 문제는 scatterplot을 통해 더 명확하게 확인할 수 있는데 Top5 임산물 가격 데이터는 모두 2009년에서 2011년 사이의 데이터를 보유하고 있지 않다는 사실을 알 수 있다.
- 3.
밤, 건대추, 생표고, 생더덕은 2007년~2009년 사이의 월별 가격 변동 폭이 크고 최근에는 대체로 안정적인 가격 추세를 유지하고 있으며 반면 깐잣의 가격은 최근에 변동이 심했다는 것을 알 수 있다.
데이터의 양이 제일 많은 5개의 작물의 연별 가격 변동 그래프는 다음과 같다.
임산물 밤의 각 등급의 연별 가격 변동 그래프는 다음과 같다.
-
기준연도를 1년 후로 놓고 봤을 때
-
기준연도를 2년 후로 놓고 봤을 때
임산물 건대추의 각 등급의 연별 가격 변동 그래프는 다음과 같다.
-
기준연도를 1년 후로 놓고 봤을 때
-
기준연도를 2년 후로 놓고 봤을 때
임산물 생표고의 각 등급의 연별 가격 변동 그래프는 다음과 같다.
-
기준연도를 1년 후로 놓고 봤을 때
-
기준연도를 2년 후로 놓고 봤을 때
결론
- 1.
(주)우림인포텍에서 제공하는 임산물 및 농산물의 월 단위의 품목별 평균가격 데이터는 총 45개 임산물의 가격 데이터를 포함하고 있다.
- 2.
대부분 임산물은 보통, 상, 특 세 가지 등급에 대한 가격 데이터를 보유하고 있고 거의 모든 품목에서 특 등급의 데이터 샘플이 차지하는 비율이 제일 적은 것으로 나타났다.
- 3.
각 품목 별 데이터 샘플의 개수가 적으며 밤, 건고추, 생표고의 가격 데이터가 전체 데이터의 40.8%를 차지하고 있다는 것을 알 수 있다.
- 4.
각 임산물의 데이터 샘플이 적을뿐만이 아니라 각 연도의 데이터가 모두 존재하는 것이 아니기 때문에 각 임산물의 가격 변동을 정확하게 파악하기에는 어려움이 있다.
- 5.
1년 혹은 2년을 기준으로 보았을 때 세부적인 변화 패턴은 파악이 가능하다.
태그 등록
특수기호 및 숫자는 등록할 수 없으며, 한 번에 하나씩만 등록 가능합니다.
공과 및 욕설, 비속어 등 타인에게 불쾌감을 줄 수 있는 태그는 통보 없이 삭제될 수 있습니다.