분류 전체보기
-
[R] 벡터 연산R 2020. 10. 31. 16:22
R은 벡터 연산이라는 효과적인 연산 방식을 채택한다. R의 모든 작업은 함수를 호출해서 벡터에 적용하는 방식이다. 이대 호출된 함수는 벡터 내 각 원소들을 하나씩 개별적으로 처리한다. 이러한 처리 방식을 벡터 연산이라고 한다. 다른 프로그래밍 언어에서 순환 루프를 사용해서 해야 할 일을 R에서는 간단하게 벡터 자체에 함수를 호출하는 방식으로 작업한다. 사칙 연산 예를 들어 1 + 2 라는 연산도 1이라는 벡터와 2라는 벡터에 + 라는 덧셈 함수가 적용된 결과이다. + 함수는 벡터의 원소 단위로 적용이 된다. 각 원소끼리 덧셈이 적용된다. 곱셈도 마찬가지로 적용된다. 사칙 연산 모두 같은 방식으로 연산이 수행된다. %% 연산자는 나눈 후 나머지를 반환하는 연산자이다. %/% 연산자는 나눈 후 몫을 취하는 ..
-
[R] 벡터 생성R 2020. 10. 31. 15:11
벡터 벡터는 R에서 다루는 가장 기본적인 데이터 구조 벡터를 만드는 가장 쉬운 방법은 c() 함수를 이용하는 것이다. c() 함수는 그 자체로 벡터를 생성하는 함수는 아니다. 인자로 주어진 벡터들을 서로 결합하는 함수이다. 이때, R에서는 하나의 원소도 하나의 벡터로 취급하기 때문에 여러 개의 원소들을 하나의 벡터로 결합할 수 있다. 그로 인해, 2개 이상의 원소를 갖는 벡터들도 하나의 새로운 벡터로 결합할 수 있다. 홀수 벡터와 짝수 벡터를 합해보자. 이때 결합되는 벡터의 원소들은 원래의 순서를 그대로 유지한다. 콜론(:) 연산자 수열로 이루어진 벡터를 생성하기 위해서 콜론(:) 연산자를 이용하면 편리하다. 3으로 시작해서 9로 끝나는 수열을 만들자. 콜론 앞의 숫자가 콜론 뒤의 숫자보다 작으면 1씩 ..
-
[R] 데이터 구조R 2020. 10. 31. 14:02
R은 벡터, 팩터, 행렬, 배열, 데이터프레임, 리스트와 같은 다양한 형식의 데이터 구조를 가지고 있다. 벡터 동일한 유형의 데이터를 원소로 갖는 데이터 집합이다. 서로 다른 유형의 데이터는 가질 수 없다. c()함수를 이용하여 벡터를 만들 수 있다. 팩터(factor) 벡터의 특수한 형태로, 범주형 값을 원소로 갖는 데이터 집합이다. 5개 제품의 등급을 표현하기 위해 c(“A”, “B”, “C”, “A”, “B”)라는 벡터를 만든다. 이는 등급을 나타내기 때문에 범주형 값을 갖는 문자 벡터이다. Factor()함수에다가 이를 넣으면 팩터(factor)로 변환된다. 문자 벡터와 팩터(factor)가 다른 점은 큰 따옴표(“), 콤마(,)가 사라지고 Levels 항목에 A B C의 범주가 표시된다. 범주 ..
-
[R] 패키지R 2020. 10. 31. 02:46
R을 설치하면 기본으로 표준 패키지가 설치된다. 표준 패키지에는 기본 함수, 통계분석 함수, 그래픽 함수 등이 포함되어 있다. library() 함수 R에 설치되어 있는 패키지를 확인하기 위해서 library() 함수를 이용한다. installed.packages() 함수를 이용하면 설치된 패키지에 대한 더 자세한 정보를 볼 수 있다. 형렬의 형태로 출력되는데, 행에는 설치된 패키지 이름이 나오고 열에는 버전 같은 정보가 나온다. 너무 데이터가 많아서 보기가 힘들면 Colnames(installed.packages())를 사용하여 컬럼 네임만 확인할 수 있다. 패키지 사용 패키지가 설치되어 있다고 바로 사용할 수 있는 것은 아니다. 패키지를 사용하려면 메인 메모리에 적재되어야 한다. R을 설치할 때 표준..
-
[R] 작업 디렉토리R 2020. 10. 31. 01:39
작업 디렉토리 작업 디렉토리는 모든 입력 작업과 출력 작업이 이루어지는 기본 위치이다. 현재 설정된 작업 디렉토리를 확인하기 위해서 getwd() 함수를 사용한다. R에 의해 자동으로 설정된 디렉토리를 볼 수 있다. R에서는 back slash(\)가 아닌 slash(/)로 디렉토리를 구분한다. 현재 작업 디렉토리가 제대로 작동하는지 확인하기 위해서 다음과 같은 코드를 다른 이름으로 저장하자. C:/Users/nick1/Documents에 제대로 저장된 것을 볼 수 있다. source() 함수 source() 함수는 파일을 읽어서 명령을 실행하는 함수이다. 아래와 같이 경로를 지정해주지 않고 source(HelloR.R)만 작성하면 자동으로 작업 디렉터리에서 "HelloR.R" 파일을 찾아서 실행시킨다...
-
[Excel] 데이터 처리와 자동 변환 방지Excel 2020. 10. 29. 01:12
연구실의 유전학자들이 데이터를 처리하는데, 엑셀에서 예를들어 'MARCH3'이나 'OCT1' 같은 데이터들을 자동으로 날짜로 변경했다고 한다. 그로 인해 유전학 관련 논문 3,597건을 분석한 결과, 잘못 입력된 데이터 이름들이 약 20%라고 한다. 나도 데이터 처리를 위해 엑셀을 공부하는 중이다. 데이터를 처리하는 중 자동으로 데이터가 바뀐다면 커다란 문제가 생길 것이다. 엑셀에서 데이터 입력시 자동 변환을 막는 법 1. 데이터 앞에 스페이스바를 입력하는 법 데이터 앞에 스페이스바를 넣으면 한 칸 공백이 생겨서 선호하지 않은 사람도 있다. 2. 셀 서식을 텍스트로 변경하는 법 3. 작은 따옴표(')를 사용하는 법 문제점 데이터 처리를 할 때 CSV 파일을 많이 이용한다. CSV(Comma Separat..
-
[Excel] 사용자 지정 목록 편집Excel 2020. 10. 28. 23:36
엑셀에서 '1, 2, 3, 4', '가, 나, 다, 라' 또는 날짜별로 정렬은 쉽게 된다. 하지만 '하나, 둘, 셋, 넷, 다섯'처럼 한글 순서는 어떻게 정렬될까? 오름차순이나 내림차순으로는 순서대로 정렬되지 않는다. 이럴 때 '사용자 지정 목록 편집'을 통해 마음대로 정렬을 추가할 수 있다. 사용자 지정 목록 편집 '파일 -> 옵션 -> 고급 -> 사용자 지정 목록 편집'을 선택한다. '새 목록'에 '하나, 둘, 셋, 넷, 다섯'을 추가한다. 이후 정렬을 클릭한 후 사용자 지정 목록을 선택한다. 방금 추가한 '하나, 둘, 셋, 넷, 다섯'을 선택한다. 올바르게 정렬된 모습을 볼 수 있다. 실제 응용 군대 계급을 정렬하려고 하는데, 기본으로 정렬하면 올바르게 정렬되지 않는다. 이렇게 순서대로 계급을 추가..
-
[Excel] 필터 단축키와 고급 필터Excel 2020. 10. 28. 12:49
필터의 단축키 필터 단축키 Ctrl + Shift + L로 빠르게 필터를 걸 수 있다. 아래 화살표 단축키 Alt + 아래 화살표로 빠르게 선택할 수 있다. 필터 검색 탄축키 E키를 눌러서 바로 검색 칸으로 갈 수 있다. 고급 필터 만약 날짜가 28일인 데이터만 보고 싶다면 필터를 하나하나 열어서 28일을 체크해주어야하는 번거로움이 있다. '고급 필터' 기능을 이용하면 세밀한 조건을 더 쉽게 걸 수 있다. 먼저 다른 시트에 찾고자 하는 날짜를 모두 입력한다. 우리는 매월 28일인 데이터가 필요하므로 28일인 날짜를 전부 입력한다. 그 후 '데이터 -> 고급'을 선택하여 고급 필터 기능을 사용한다. '목록 범위'에 전체 데이터를 지정한다. '조건 범위'에 입력해 놓은 날짜 범위를 지정한다. 그렇게 하면 날..
-
[Excel] 찾기와 바꾸기Excel 2020. 10. 28. 11:38
찾기 대문자 알파벳 I(아이)와 소문자 알파벳 l(엘)은 비슷하게 생겨서 구분하기 어렵다. 다음 중 알파벳 l(엘)을 '찾기' 기능을 이용하여 쉽게 찾을 수 있다. Ctrl + F를 눌러서 '찾기' 창을 연 뒤, 알파벳 l을 입력하고 '다음 찾기'를 누르면 알파벳 l을 찾을 수 있다. '모두 찾기'를 누르면 여러 개의 l이 존재하는지, 어디에 존재하는지 모두 찾을 수 있다. 이때, 맨 위의 셀인 '알파벳 l(엘)을 찾아라' 라는 셀도 같이 찾아졌다. 만약 l(엘)만 존재하는 셀을 검색하고 싶다면 '옵션'을 누른 뒤 '전체 셀 내용 일치' 옵션을 선택한 후 다시 '모두 찾기'를 누르면 된다. 모두 찾은 결과들을 Shitf + 클릭으로 전체 선택이 가능하고, 셀에 색을 넣는 행위 등을 전체 선택된 셀에 한번..
-
[Excel] 효율적인 Rawdata 생성 규칙Excel 2020. 10. 27. 19:23
효율적인 Rawdata 생성 규칙 하나의 셀에는 반드시 하나의 값만 입력해야 한다. 데이터는 행으로 쌓아야 한다. 분석 목적에 맞게 데이터를 분리해야 한다. 날짜를 '진짜 날짜'로 분리해야 한다. 1. 하나의 셀에는 반드시 하나의 값만 입력해야 한다. 셀 안에 여러 개의 줄로 데이터를 입력하는 경우가 있다. 다음과 같이 하나의 셀 당 하나의 데이터만 들어가게 입력하는 것이 데이터를 분석하는데 좋다. 2. 데이터는 행으로 쌓아야 한다. 데이터를 열로 늘려나가는 것 보다 행으로 늘려나가는 것이 좋다. 3. 분석 목적에 맞게 데이터를 분리해야 한다. 지역 속성에 '서울 종로구'로 데이터가 입력되면 지역이 '서울'인 데이터만 보고 싶을 때, 지역이 '종로구'인 데이터만 보고 싶을 때 어려운 점이 발생한다. '서..