[R 학습일지, 1일차] R, 통계분석용 언어 특징, 기초통계량

[R 학습일지, 1일차] R, 통계분석용 언어 특징, 기초통계량

컴퓨터, AI/R (통계) 2026. 4. 20. 17:34
4월20일(월) R 수업내용 구조화하기 (coggle 이용해서 마인드맵 트리구조 만들기)

코글을 이용한 마인드

R의 특징

R의 벡터화 연산

▶ 통계하면 가장 먼저 생각나는 단어는? 평균

▶ 왜 평균을 사용할까? → 데이터를 단순화 시켜서 비교하기 위함이다. (데이터를 열로 비교한다)

R의 벡터화 연산

▶ 열을 우선으로 취급한다

(행보다 열로 작업하면 작업속도가 5배에서 10배 빨라진다)

→ 분산 : 데이터가 평균으로부터 얼마나 분산되어 있는지?

분산이 크면 중요한 지표이다, why? 분석의 대상, 그 집단의 특성을 찾을 수 있기 때문

🚩C, Java, Python 은 행우선이다

▶ 데이터를 연속적인 공간에 저장한다

1) 동질적 데이터만을 저장 가능

2) 연속적 데이터를 저장할 수 있다.

🚩C의 배열(array), Numpy와 동일하다

1) R에는 데이터 타입이 없다

2) 변수가 주소다

3) Call by reference이긴 하지만, 공유할때 복사하지 않음

그러면?

▶ 수정 후 복사

수정을 다 하면 복사한다 → 원본에 무영향

🚩 데이터 보호를 위함

<기초 통계량>

중심 경향

1) 평균(mean)

모든 관측값을 더해서 개수로 나눈 값

데이터의 '중심'

퍼짐 정도(산포도)

2) 분산(variance)

데이터가 평균으로부터 얼마나 멀리 퍼져있는지 나타냄

각 값에서 평균을 뺀 뒤 제곱해서 합산한다

3) 표준편차 (Standard Deviation)

분산에 √루트를 씌운 값

실제 데이터와 같은 단위로 퍼짐 정도를 보여준다

상대적 비교

4)변동계수 (Coefiicient of Variation, CV)

서로 단위가 다른 두 집단의 퍼짐 정도를 비교

표준 편차를 편차를 평균으로 나눈 값

ABOUT ME

내가 가진 PIE 내가 가진 PIE

티스토리툴바