-
20하나6년 시도시구군 정보카테고리 없음 2020. 1. 23. 21:04
#20하나 6년 교통 문제#시도 시구 군별#통계 분석#교통 문제 분석#교통 문 지에랴은#R#Rstudio.R데이터 분석#데이터 분석#EDA#디플러 닌#머신 러닝#빅 데이터 형 데이터 추출#데이터를 다루는#데이터 조작#데이터란 좋아 오거의 매일 날은 20하나 6년 시도의 시구 군별 교통 문제 통계를 분석하고 보겠습니다.데이터는 "공공 데이터 포털"에 있는 데이터 셋을 가져옵니다.
위의 사이트에도 있고 저의 깃발 허브에도 업로드 해둘 것입니다.압축 폴더를 다운로드하면 여러 CSV 파하나가 들어 있습니다.
>
그 중에서 저는 가해 운전자의 연령별 교통 문재에 대해 분석해 보겠습니다.Rstudio에서 읽기 편하도록 캐릭터 시던트_age로 이름을 변경했습니다.
>
여기서 주의할 점은 액셀은 바로 사용할 수 없고 데이터 플레이입니다. R스튜디오에서 엑셀을 불러올 때 readxl 패키지를 업로드 한 후에 가져오거나 해야 합니다.(내 블로그에 readxl패키지 설치 법 업로드하고 놓아 설치되지 않은 사람들은 참고하십시오)https://blog.naver.com/kangsho15/221492163626
>
엑셀파일을 불러와 View함수로 확인한 것입니다.원본은 복구해야 할 상황에 대비해서 복사를 만들어서 사용합니다.
>
데이터가 어떤 형태인지 다양한 함수를 사용하여 분석을 해보겠습니다.
>
>
str()함수로 확인한 것입니다. car_age는 데이터 프리입니다에 졌으며 첫 922개의 행과 9개의 열이 존재하는 것을 알 수 있습니다. 역시 char형과 num형의 변수가 존재했음을 알 수 있습니다.제일 먼저 변수가 한글로 되어 있기 때문에 분석하기 쉽도록 영어로 바꾸겠습니다.
>
위와같이변수명을바꿨습니다.
>
>
데이터를 살펴보니 교루츄크치는 없는 극단치가 3개가 있다고 보인다. 나중에 이것을 제거하고 분석하겠습니다.금화은
3개를 분석하고 봅시다.첫째,나이에따른사망자수입니다.
>
>
>
x축 범위를 하나 2.5로 바꿔서 더 자세히 알아보겠습니다.
>
표와 그래프를 보면 하나 2.5이상 사망하는 환자는 극히 드물기 때문에 교루츄크 처리합니다.
>
>
교루츄크치이 21건이 생겼습니다. 나중에 제거할게요.
>
우선 연령대별 사고 횟수를 보면 하나 2세 이하의 연령이 횟수가 적고 남은 연대는 224~229건의 사코랴은이 보인다.
>
>