많은 이슈를 몰고오는 비전공자 데이터 분석 취업에 대해 알아보도록 하겠습니다. 빅데이터 분야는 각자가 속해져 있는 환경과 개개인이 생각하는 빅데이터에 대한 기준에 따라 상이한 의견을 가지고 있으니 이점은 참고 해 주세요. 비전공자의 시각과 기준에서 작성 해 보도록 하겠습니다.
우선 빅데이터 분야는 비전공자가 취업 할 수 있다 vs 취업 할 수 없다에 대해 흑백적인 관점으로 접근을 하는 것이 어려울 수 있습니다. 통계/수학적인 개념을 많이 필요로 하는 환경에서는 당연히 비전공자는 고사하고 일반적인 학사 수준의 상경계열 학생이도 취업을 할 수 있다 라고 보장하지는 못 합니다. 다만 조건은 있을 순 있겠습니다. 학사 수준임에도 불구하고 석/박사 수준의 논문 분석 및 실무 적용 능력이 있다는 판단하에는 학사 수준도 잠재력이라는 관점으로 채용이 이뤄질 순 있겠습니다. 하지만 그게 아니라면 일반적인 학사 수준의 취업은 분명 어렵습니다.
그럼 폭 넓은 빅데이터 분야 중 비전공자가 취업을 노려볼 수 있는 경쟁력 있는 분야는 "데이터 분석" 분야라고 할 수 있습니다. 일반적인 데이터 분석의 목적은 특정 결정권자가 데이터 분석가가 분석한 통계치 및 수치를 기반으로 결정을 할 수 있는 데이터 셋을 마련한다 라고 생각 할 수 있습니다. 다시 이야기 하면 수치에 인과 관계를 스토리텔링 해 나간다는 느낌이 강합니다. 그렇기 때문에 현 시점 까지는 마케팅 분야에 가장 가까운 환경이라고 생각 할 수 있습니다. 그렇다면 왜 비전공자 혹은 학사 수준의 학생들이 취업 할 수 있냐? 라는 질문에는 모듈의 발전이라고 대답 할 수 있습니다.
1. 넘파이 Numpy
데이터 과학자 혹은 통계학자라면 누구나 알고 있을 라이브러리 numpy (넘파이) 이다. 넘파이는 수치 계산 및 그래픽 관련 작업을 할 때 매우 유용합니다. 또한 수학 분야 외에도 물리학, 공학, 컴퓨터 사이언스 등에서도 널리 활용되고 있습니다. 요즘 빅데이터 시대라고 불릴 만큼 수많은 데이터 속에서 의미 있는 정보를 찾아내고 분석해야 하는 일이 많아지고 있습니다. 따라서 이러한 역할을 수행하기 위해서는 방대한 양의 데이터를 다룰 수 있는 도구가 필요한데 그것이 바로 NumPy 라고 할 수 있습니다.
또한, 통계학 분야에서 행렬연산 및 그래프 그리기 작업 시 유용하게 활용되는 라이브러리 패키지 입니다. 주로 데이터 분석 업무나 머신러닝 모델링 프로젝트 수행 시 필요합니다. 물론 R에서도 기본 제공되지만 좀 더 효율적인 개발을 위해서 별도 설치하여 사용할 수도 있습니다. Numpy란 이름은 기존 MATLAB 버전 4에서의 수학 연산용 프로그램이었던 NUMBER-PAYLOAD (NLP) 에서 유래되었다. 주요 특징으로는 32bit 부동소수점 계산 지원, 배열 대 리스트 자료형 변환 자동화, 선형대수 함수 추가 등이 있습니다.
2. 판다스 Pandas
데이터 분석 기법 중 하나로 불리는 판다스(Pandas)는 머신러닝 및 통계학 연구자들 사이에서 널리 사용되는 오픈소스 라이브러리입니다. 파이썬 언어 기반으로 개발되어 다양한 플랫폼에서 동작하며, 여러 형태의 데이터 처리와 분석 등 거의 모든 상황에서 유용하게 쓰입니다. 특히 빅데이터 시대에서는 없어서는 안될 중요한 기술이라고 할 수 있습니다.
데이터 분석 입문자라면 누구나 들어봤을 파이썬 언어 ! 하지만 막상 배워보면 너무 복잡하고 어려워 포기하는 사람도 많다. 그런 어려움을 겪고 있는 초보자들을 위해 만들어진 Python 3 Library 인 pandas 를 소개하고자 합니다. 우선 pandas 는 기본적으로 엑셀 파일 또는 CSV 파일로부터 데이터를 가져오는 작업을 도와줍니다. 또한 특정 조건에 맞는 데이터만 가져오기 위한 filter 와 원하는 컬럼만을 추출하기 위한 select 문 그리고 행별 정렬 및 열별 정렬등 매우 다양한 기능을 제공합니다. 마지막으로 기존 리스트 형식 외에 새로운 타입인 Series 도 지원하여 보다 편리하게 데이터 관리를 할 수 있게 되습니다.
데이터 분석할 때 필요한 대표적인 라이브러리로는 pandas와 matplotlib 등이 있습니다. 두 라이브러리는 각각 그래프나 통계자료를 시각화하는데 특화되어 있는데요. 둘 다 장단점이 있지만 개인적으로는 pandas쪽이 더 유용하다고 생각합니다. 왜냐하면 사용법이 직관적이기 때문입니다. 코드 몇 줄이면 다양한 형태의 자료를 손쉽게 표현할 수 있고, 여러 가지 옵션이나 세부 설정들도 편리하게 되어있습니다. 그래서 대부분의 입문자분들은 pandas를 먼저 배우시는 편입니다. 특히 파이썬 문법과도 잘 맞아서 함께 공부하면 시너지 효과를 낼 수 있습니다.
이 처럼 모듈 및 라이브러리가 발전됨에 따라 비전공자의 학생들 혹은 전공자들의 힘듬을 한결 덜어줄 수 있기는 하나 모든 학생들이 다 취업을 할 수 있다 라는 것은 아닙니다. 여전히 빅데이터 분야, 데이터 분석 분야라 할 지라도 많이 어려운 분야 입니다. 하지만 노력한다면 못 할 것도 아닌 분야 입니다. 그러니 빅데이터 분야로 취업을 희망하시는 분들은 부단한 노력으로 원하는바를 이뤄보시길 바랍니다.
'빅데이터' 카테고리의 다른 글
백엔드 개발 신입, 빅데이터를 잡아야 한다. (0) | 2023.05.25 |
---|---|
빅데이터 의료 분야 혁신에 본격 시동 (0) | 2023.03.02 |
빅데이터 분석 전문가의 필요성 (0) | 2023.02.22 |
빅데이터 분석 자격증에 대해서 알아보기 (0) | 2023.01.10 |
비전공자 빅데이터 / 데이터분석 취업 (2) (0) | 2022.12.28 |
댓글