소스코드에서 키워드를 추출하는 툴 code-words 소개

Posted by MinSik on February 13, 2015
소스코드에서 키워드를 추출할 일이 생겨서 구글링을 하다 괜찮은 프로젝트를 발견했다.
https://github.com/npryce/code-words

맨처음 mac에서 테스트 해봤을때는 이상하게 동작해서 이게 뭐지?? 이랬었는데
Readme 파일을 잘 읽어보니 linux에서 제대로 동작 한다고 한다.

C 부터 java, ruby, python, javascript, scala 심지어 Haskell 까지 많은 언어를 지원한다.
나는 java로 된 프로젝트로 테스트를 해보았는데 java의 키워드나 primitive type들을 알아서 처리해주고 필요한 경우 따로 추가해줄 수도 있다.
stop words도 지정해서 불필요한 단어는 제외해줄 수도 있다.

참고로 맨 마지막 파이프에 wordcloud 를 사용하면 위와 같이 태그 클라우드를 이미지 파일로 생성해주고
word-count 를 사용하면 단어별로 카운트를 해준다.

리눅스에서 파이프를 이용하면(소스를 git log 에서 불러온다든지) 다양한 조합이 가능해진다.