소소한 블로그

[소소한 이야기] 생각정리

happy_ai — Fri, 19 Aug 2022 19:27:34 +0900

이번 게시물은 주저리주저리 생각 정리용 포스팅입니다ㅎㅎ

저는 생각을 정리하는데에 뛰어난 사람이 아닌지라..

이렇게 머리속 생각을 글로 풀어내는 단계를 거쳐야,

내가 어떤 방향을 가야 하고 무엇을 해야 하는지 감이 잡히더라구요.

그래서인지 자신의 생각을 시간텀을 두지 않고 바로바로 말하시는 분들을 보면 참 신기합니다.

근황?

일단 근황을 살펴보면,

현재 부스트 캠프를 마치고 어느 스타트업의 추천팀에서 AI 리서치 엔지니어로 일하고 있습니다.

3개월 인턴을 마쳤고 전환이 되어 정직원으로 일한 지 3달이 되어가네요.

전 직장의 퇴사 후 "Vision 혹은 NLP"팀에서 "AI 리서치 엔지니어"로 일하고 싶다는 생각을 했으니,
절반 목표는 달성했네요! (50%인 이유는 Vision, NLP가 아닌 추천팀에서 일하고 있기 때문이죠.)

생각?

원래는 딥러닝 논문을 보며 모델 아키텍처를 이해하는 그 순간들이 즐거워서,

특히 "리서쳐"로서의 앞날을 기대했습니다.

하지만 회사에 들어오고 나서 주변에 뛰어난 리서쳐들을 보니

그들로 하여금 자극받고 공부를 더 하고 싶은 마음보다는,

이미 모델링을 잘하는 사람은 많고 발표된 모델들은 많으니
여기서 내가 가져야 할 플러스 알파는 무엇이 되면 좋을까 하는 생각이 들더라구요.

(사실 그들을 보며 약간 기가 죽은 것 같기도...?)

그래서 지금 저는 제 스스로가 애매하다는 생각을 가지고 있습니다.

객관적으로 봤을 때에 추천팀 리서쳐로서의 실력을 잘 갖춘 것도 아니고,

그렇다고 모델 서빙 부분을 경험해본 것도 아니고요.

(제가 이런 이야기 하면 듣는 분들이 어떻게든 위로해주시려고 하는데,

객관적으로 봤을 때 지금 당장 실력이 없다는 것뿐이지

저에게도 충분한 역량이 있다는 것은 알고 있습니다 ㅎㅎ)

또한 풍부한 '상상력'보다는 감각 및 경험을 통해 얻는 '사실'에 집중하는 성향 때문에,

실재하지 않은 무언가에 대한 많은 토의가 필요한 스타트업에서

제 한몫을 못하는 느낌도 받고 있습니다.

그리고 제 하루에 일을 빼면 OTT 서비스만 남아있는데요ㅋㅋ

제 세계가 점점 더 좁아지는 느낌이 듭니다.

세계가 좁으니 제 생각들을 잘 표현하는 너비와 깊이가 작아지는 듯해요.

쓰고보니 왜 이렇게 부정적인 이야기만 있는 느낌이죠?ㅎㅅㅎ

하지만 이런 상황 속에서 내가 배워나갈 것들을 기대하며 끙차끙차 나름 지내고 있답니다.

그래서?

주저리 주저리 생각을 다 글로 나열해보니 아래와 같이 정리되겠네요?

1. '리서쳐'가 놓칠 수 있는 '엔지니어'로서 역량을 가지고 싶다. (그런데 추천팀에서의 '리서쳐'의 기본적인 역량도 길러야 하긴 함..)

2. 팀에서의 나의 위치가 애매하다.

3. 상상력보다는 사실에 집중하는 성향 때문에, 현재 회사에서 내 한몫을 못하는 느낌이다.

4. 나의 하루 - 일 = OTT.. 내 세계가 좁아져 나의 생각들을 표현하는 너비와 깊이가 줄어드는 느낌이다.

하루아침에 해결되는 문제들이 아니네요...ㅎㅎ

뭐부터 해나가야 할까요?

이렇게나 욕심들은 많은데 조바심과 게으름이 많은 사람이라, 더더욱 성장의 진척도가 느린 기분입니다.

적은 input 대비 output이 선명하게 보이는 방향으로 노력해봐야겠어요. (제가 지금껏 제일 못해왔던 것입니다...ㅎㅎ 항상 엉뚱한 방향으로 미련하게 시간을 쏟는 편...)

아래 같은 큰 방향들이 떠오르네요?

1. 팀에서 나의 자신감 + 리서쳐 역량을 키우기 위해 "추천" 공부를 하자.

2. 이와 동시에 MLOps 공부를 하자.

3. 상상력보다는 사실에 집중하는 나의 성향이 분명 필요할 때가 있는 걸 안다.

다만 팀원들과의 활발한 논의를 가능하게 하기 위해 "내가 알고 있는 사실"들을 넓히자.

그러면 나의 지식을 바탕으로 많은 말들을 할 수 있겠지.

4. input 대비 output이 분명히 되게끔 일의 방식을 바꾸자.

완벽하게 다 한 뒤 팀원들에게 결과물을 공유하는 것이 아닌, 가능한 작은 task로 쪼개어 일단 일을 잘하는 척(ㅎㅎ) 하고, 하루에 차지하는 근무 시간을 줄여보자.

리스트 형태가 아닌 글로 풀어쓰면 아래와 같이 되겠네요.

근무 시 최대한 작은 task들로 큰 업무를 쪼갠 뒤 일을 수행하자.
input 대비 output이 분명한 방향으로 업무를 하자.
그래서 미련하게 하루에 많은 시간들을 일에 쏟는 행동은 그만하자.

그렇게 해서 확보된 내 하루에 추천 공부와 MLOps 공부를 하는 시간을 만들자.

그리고 일을 뺀 나를 재밌게 만들어 주기 위한 것들은 무엇이 있을지 생각해보자.

제일 마지막과 관련하여 최근에 친구한테 지난 제 생일에 초과 근무했다고 말하니

저에게 해준 말이 생각나는데요,

개인에게는 큰 자신과 작은 자신이 있다고 하더라구요??

큰 자신은 남에게 비춰지는 나이고 작은 자신은 나만 알고 있는 숨겨진 나인데,

왜 큰 자신이 작은 자신을 돌보지 않았냐면서 비싼 음식이라도 플렉스 하던가

술을 진탕 마신다거나 농땡이를 깠었어야 한다면서 질책을 줬습니다ㅎㅎ

사실 별생각 없이 일을 했는데 그 이야기를 듣고 뜬금없이 찡해지는 것을 보면,

저도 모르게 무언가를 놓치며

'나는 잘 가고 있으며 나는 대단한 사람이 될 거야'라는 욕심을 제 자신에게 세뇌했던 것 같습니다ㅋㅋ

간만에 글 올리니 생각도 정리되고 좋군요.

이제 공부하면서 블로그 혹은 어딘가에라도 말로 배움을 정리해야겠습니다!

[짧은 기록] 인턴 인터뷰어 경험

happy_ai — Fri, 19 Aug 2022 18:14:38 +0900

회사 팀에서 리서치 엔지니어 인턴 면접에 참가하였다.

짧은 기록들

1. 면접 후 팀원들과 토의 시, 인터뷰이에 대한 합류 반대의사를 표현할 때에는 정확한 근거를 들자.
+ 팀원을 고르는 나의 기준을 세워보자.

"애매하다" 라는 표현만으로 인터뷰이를 떨어뜨리는 것은 면접관으로서의 책임을 다하지 못한 것 같다.
면접관의 그 날의 감에 따라, 기분에 따라 혹은 애매한 기준에 따라 합격 당락을 결정하는 것은,
인터뷰이에 대한 예의가 아닐 뿐더러 좋은 팀원을 얻을 기회도 없어지는 것 같다.
ps. 정확한 기준없이 뭉뚱그린 근거로 합류 반대의사를 표하고 난 뒤에, 마음속의 찜찜함과 미안함이 남아있더라..

2. 왜 허점만 찾으려 했을까. 인터뷰이에 대한 장점을 끌어낼 수 있는 질문들을 할 수 있었을텐데.

회사 내에서 처음으로 면접에 참여하다보니, 긴장감을 가진 채 이사람의 허점을 어떻게든 찾아내려는 태도가 나도 모르게 장착되었다.
이 사람의 장점을 찾는 질문들이 충분히 있었을텐데... 사실 내가 인터뷰이었더라도 답하지 못할 어려운 질문들만 가득했다. 허점을 찾는 질문만 있어서는 안되고, 이 사람의 장점을 찾아낼 수 있는 질문들을 내가 해나가야지.

3. 개구리 올챙이적 생각 못했다...

내가 학부 때 인턴 혹은 신입 지원했을 때에는 "인턴, 신입한테 바라는게 왜 이렇게 많아! 대학교에서 수업 충실히 듣고 과제 수행하는 것만으로도 빡빡한데."라는 불만이 있었는데,
막상 면접관으로 들어가니 우리 도움없이 혼자 일 할 수있는 인턴인지를 보게 되더라... 인턴인데 너무 많은 것을 요구하는 거 아닌가...
앞으로는 플러스 알파의 능력 말고, 자신의 경험 안에서 충분히 노력한 분인지를 알아가보자.

[논문리뷰] FaceNet에 대한 이해

happy_ai — Wed, 9 Feb 2022 17:56:59 +0900

이번에는 FaceNet 논문에 대해서 정리해보고자 합니다.

(논문링크 - FaceNet: A Unified Embedding for Face Recognition and Clustering)

FaceNet은 2015년에 발표된

Face verification, recognition, clustering에 쓰이는 embedding 생성 모델입니다.

이 논문을 읽은지는 꽤 되었지만 따로 기록으로 남기진 않았는데,

오늘 정리해보고자 합니다.

그러면 바로 본론으로 들어가겠습니다.

[FaceNet의 주요 특징과 장점]

제가 생각하기에 FaceNet의 주요 특징은

아래와 같이 2가지로 정리할 수 있을 것 같아요.

얼굴 사진이 주어지면,
이것을 직접적으로 n차원의 Euclidean space상의 벡터로 mapping 시킬 수 있다는 점
훈련을 시킬 때에 'triplet loss'를 사용한다는 점

이로부터 오는 장점은 아래와 같습니다.

output 형태가 embedding vector이기 때문에,
이전 모델들과는 달리 embedding vector을 직접적으로 optimize 한다는 점
적은 차원의 embedding vector를 가지고도 효과적으로 이미지를 표현해낼 수 있다는 점

본격적인 내용에 앞서서

간단하게 FaceNet의 주요 특징과 장점에 대해 정리해봤어요.

이제 조금 더 자세하게 들어가볼게요.

[기존 모델의 한계점]

설명에 앞서,

여기서 언급하는 기존 모델이란 FaceNet이 나오기 전의 모델을 의미합니다.

기존의 face recognition 모델들은

classification layer을 가지는 deep networks을

여러 인물에 대해 학습을 시킵니다.

쉽게 생각하면 하나의 인물을 하나의 카테고리로 삼아,

이미지 분류 모델을 학습시키는 것이죠.

학습이 완료된 후, 중간 layer의 output을 이미지의 representation vector로 삼았습니다.

(참고로 face recognition이란 해당 사진이 어떤 인물인지 판단하는 태스크입니다.)

이 접근법의 단점은 아래와 같습니다.

직접적으로 embedding vector를 학습시키지 않는다.
representation vector의 차원이 크다.

만약 train dataset에는 없는 새로운 인물이 주어진다면,

과연 이미지 분류 모델의 중간 layer의 output이

해당 인물을 잘 표현해내는 representation vector가 될 수 있는가에

대한 의심을 품을 수 있습니다.

또한 representation vector의 차원이 1000단위였는데,

이는 FaceNet에 비하면 매우 큰 차원입니다.

(참고로 FaceNet은 128차원입니다.)

[기존 모델의 한계점 보완]

기존 모델의 한계점을 설명했다는 것은

FaceNet은 위의 한계점을 보완했다는 의미겠죠?

FaceNet은 classifier을 학습시키는 것이 아니라,

128차원의 임베딩 벡터를 직접적으로 학습시킵니다.

'triplet loss'라는 것을 사용하여 deep convolution network를 학습시킴으로써,

이를 가능하게 만들었습니다.

triplet loss를 계산하기 위해서는

아래와 같이 기본적으로 3가지 사진이 한 쌍이 되어야 합니다.

(기준이 되는 사진 - anchor, 기준과 동일한 인물 사진 - positive, 기준과 다른 인물 사진 - negative)

여기서 첫번째와 두번째 임베딩 벡터사이의 거리는 가깝게,

첫번째와 세번째 임베딩 벡터사이의 거리는 멀게끔

학습을 시키는 것이 triplet loss의 개념입니다.

여기에서 대략적으로 FaceNet의 학습방법을 언급했다면,

뒤에 이어서 더 구체적인 학습방법과 여러 실험결과에 대해

정리해보겠습니다.

[Triplet Loss]

triplet loss를 설명하기에 앞서

아래의 figure통해

FaceNet의 모델 구조와 triplet loss에 대한 개념을

다시 한번 간략히 상기시켜보겠습니다.

출처: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf

위의 figure로부터

FaceNet는 deep convolution network의 구조를 가지며,

최종 output은 embedding vector임을 알 수 있습니다.

그리고 모델은 triplet loss를 통해 학습을 진행함을 알 수 있습니다.

출처: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf

위의 figure는 triplet loss가

anchor와 positive의 embedding vector 사이의 거리는 가깝게

anchor와 negative의 embedding vector 사이의 거리는 멀게

학습시킨다는 것을 표현하고 있습니다.

이제 본격적으로

triplet loss에 대해 알아보겠습니다.

1) Triplet Loss 수식

FaceNet의 embedding vector은 하나의 제약이 있습니다.

embedding vector의 정의를 $f(x) \in \mathbb{R}^{d}$로 한다면,

$\left\|f(x) \right\|_{2} = 1$라는 제약이 붙습니다.

사실 이 제약은 위의 모델 구조 figure에서 볼 수 있었습니다.

(빨간색으로 표시함)

출처:&amp;amp;amp;amp;nbsp;https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf

triplet loss를 수식으로 나타내면 아래와 같습니다.

\[L=\sum_{i}^{N}\left [ \left\|f(x_{i}^{a}) -f(x_{i}^{p})\right\|_{2}^{2}-\left\|f(x_{i}^{a}) -f(x_{i}^{n})\right\|_{2}^{2}+\alpha \right ]_{+},\]

\[\forall(f(x_{i}^{a}),f(x_{i}^{p}),f(x_{i}^{n})) \in \tau \]

여기서 $\tau$는 학습데이터에서 만들어질 수 있는

모든 triplet쌍의 집합을 뜻합니다.

$\alpha$는 positive와 negative간의 margin을 뜻합니다.

2) Triplet Selection

만약 만들어질 수 있는 모든 triplet쌍을 학습데이터로 활용한다면

생기는 문제점에 대해 생각해보겠습니다.

위와 같은 상황에서

육안으로 봤을 때 다른 사람임을 쉽게 구분할 수 있는 데이터 또한

학습데이터로 많이 활용되게 됩니다.

이 경우 $\left\|f(x_{i}^{a}) -f(x_{i}^{p}) \right\|_{2}^{2} + \alpha < \left\|f(x_{i}^{a}) -f(x_{i}^{n}) \right\|_{2}^{2}$의 문제는

해결하기 쉬운 문제가 됩니다.

쉬운 문제들로 인해 정작 중요하게 풀어야 하는 어려운 문제들에 대해서는

잘 학습하지 못하게 됩니다.

이 경우에 모델의 수렴 속도가 느려진다는 문제점이 생깁니다.

그렇다면 어떻게 triplet을 구성해야 할까요.

맞추기 어려운 $x_{i}^{p}$ (hard positive)와 $x_{i}^{n}$ (hard negative)를 골라야 합니다.

이를 수식으로 더 풀어서 쓴다면

$argmax_{x_{i}^{p}}\left\|f(x_{i}^{a}) -f(x_{i}^{p}) \right\|_{2}^{2}$을 만족시키는 $x_{i}^{p}$를 고르고

$argmin_{x_{i}^{n}}\left\|f(x_{i}^{a}) -f(x_{i}^{n}) \right\|_{2}^{2}$을 만족시키는 $x_{i}^{n}$을 고르는 것이 이상적입니다.

하지만 전체 데이터셋에 대해 위를 만족하는

$x_{i}^{p}$, $x_{i}^{n}$를 찾기는 어려운 일이므로

(모든 pair에 대해 거리 계산이 필요하고,

학습데이터에는 잘못 라벨링된 데이터도 존재하기 때문입니다.)

FaceNet에서는 mini-batch마다 triplet을 구성하였습니다.

mini-batch 마다 anchor와 positive sample의 거리가 의미 있으려면,

하나의 배치마다 최소한의 positive sample이 존재해야 합니다.

따라서 배치마다 한 인물당 40개의 이미지를 포함하도록 했습니다.

그런데 FaceNet에서는 mini-batch마다 hard positive와 hard negative를 구성한 것은 아닙니다.

positive에 대해서는 hard positive를 선택하지 않고,

모든 anchor-positive pairs의 조합을 사용하였습니다.

논문에서는 이렇게 했을 때 train이 더 안정적이고 더 빠르게 수렴했다고 합니다.

다만 negative sample에 대해서는 hard negative를 이용하였습니다.

아래를 만족시키는 $x_{i}^{n}$를 만족시키는 negative sample을 고릅니다.

$\left\|f(x_{i}^{a}) -f(x_{i}^{p}) \right\|_{2}^{2} < \left\|f(x_{i}^{a}) -f(x_{i}^{n}) \right\|_{2}^{2}$

위를 만족시키는 negative sample은 margin $\alpha$경계 안에 들어있는 sample일 수 있습니다.

[Deep Convolutional Networks]

위에서 FaceNet은 Deep Convolutional Networks를 활용한다고 하였습니다.

여기에서는 어떤 Deep Convolutional Networks를 가지는지

간략히 짚고 넘어가겠습니다.

크게 2가지 타입으로 나눠 FaceNet을 실험했다고 합니다.

parameter의 개수와 FLOPS의 값과, 성능 간의 trade-off로 인해

2가지 유형으로 나눠 FaceNet을 실험해봤다고 합니다.

첫번째 유형은 Zeiler&Fergus architecture 기반으로 한 구조입니다.

아래와 같은 layer를 가집니다.

출처: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf

두번째 유형은 GoogLeNet 구조를 활용한 네트워크입니다.

이는 첫번째 유형에 비해 파라미터 개수가 약 20배 작고,

FLOPS는 약 5배 적다고 합니다.

모델 크기가 작아 핸드폰과 같은 기기에서 잘 작동할 수 있다고 합니다.

이 유형에서는 파라미터 개수와 FLOPS에 따라 4가지(NNS1, NNS2, NN3, NN4)로 나뉩니다.

[Evaluation]

모델의 평가는 face verification task에 대해

자체 평가지표를 정의하여 수행했습니다.

참고로

face verification이란 두 사진이 주어졌을 때,

두 인물이 같은 인물인지 판단하는 태스크입니다.

FaceNet에서는 두 사진이 주어졌을 때

두 임베딩 벡터 사이의 거리가 특정 threshold를 넘는지를 이용하여

같은 인물인지 다른 인물인지 판단하게 됩니다.

$P_{same}$을 같은 인물인 두개의 사진쌍의 집합이라고 하고,

$P_{diff}$를 다른 인물인 두개의 사진쌍의 집합이라고 정의합니다.

그 후, 아래와 같이 TA(d), FA(d)를 정의합니다.

\[TA(d) = \left\{(i,j) \in P_{same},\textrm{ with }D(x_{i},x_{j})\leq d \right\}\]

\[FA(d) = \left\{(i,j) \in P_{diff},\textrm{ with }D(x_{i},x_{j})\leq d \right\}\]

이는 각각

같은 것을 같다고 판단한 개수,

다른 것을 같다고 판단한 개수를 뜻합니다.

그 후, VAL(d)와 FAR(d)를 아래와 같이 정의하여 모델의 평가지표로 활용합니다.

$VAL(d) = \frac{TA(d)}{P_{same}}$, $FAR(d) = \frac{FA(d)}{P_{diff}}$

평가 데이터셋은 LFW, YouTube Faces, Personal Photos를 활용하였고,

자체 평가지표는 Personal Photos에 대해 적용했다고 합니다.

(나머지는 Face recognition 성능으로 측정)

[Experiments]

논문에서는 아래 실험에 대한 결과물을 소개하고 있습니다.

연산과 accuracy간의 trade-off
CNN 모델 유형마다의 VAL값
이미지 퀄리티에 따른 VAL값
임베딩 벡터 차원에 따른 VAL값
학습데이터 개수에 따른 accuracy값
LFW 데이터셋과 Youtube Faces DB에 대한 accuracy값
자체 데이터인 Personal Photos에 대한 face clustering 성능

이것들을 모두 설명한다면,

글 내용이 너무 길어질 것 같아 생략하도록 하겠습니다.

[Summary]

지금까지 기존 모델의 한계점을 해결한

FaceNet만의 특징과 장점에 대해 알아보았습니다.

한 문장으로 FaceNet을 요약한다면,
triplet loss 학습 방법을 사용하여
이미지로부터 임베딩 벡터를 직접적으로 생성해내는 모델

이라고 요약 가능할 것 같습니다.

논문에서 future work로

에러 케이스를 분석하여 모델을 개선시키고

모델 사이즈와 요구되는 CPU 스펙을 더 낮추는 것을 제시했습니다.

또한 학습속도를 더 짧게 개선시키는 것을 제시했네요.

드디어 끝났습니다!

개인적으로

Face verification model은 한 번도 공부해본 적은 없어서 그런지

FaceNet의 학습 방식이 흥미로웠습니다.

다음에는 또 무엇을 공부해볼지 생각해야겠습니다.

[소소한 이야기] 요즘 생각들

happy_ai — Sat, 4 Dec 2021 02:26:42 +0900

* 해당 게시물은 정리안된 저의 개인적인 생각이므로,

그냥 지나치거나 가볍게 읽어주길 바랍니다!

저는 SNS에 저의 생각들이나 일상들을 잘 적어두지 않습니다.

SNS 친구들 앞에서 개인적인 이야기를 털어놓는 것이 부끄럽기 때문이죠.ㅎㅎ

그래서 구독자도 없고 지인들도 잘 알지 못하는 저의 블로그에

저의 이야기를 끄적이고자 합니다.

주저리 이야기하면서 생각도 정리할 겸요!

약 6개월 전 저는 제가 재밌어하는 공부를 해보겠다고 휴직을 결정했습니다.

사실 처음에는 팀장님께 퇴사를 말씀드렸지만,

시간을 더 길게 잡고 천천히 고민해보라는 팀장님 권유에 6개월 휴직을 결정했죠.

그리고 지금은 6개월 휴직기간이 거의 끝나가는 시점입니다.

선택의 길은 다양합니다.

다시 복직을 하여 ML/DL 관련 팀에 들어갈지,

ML/DL을 중점적으로 하는 새로운 회사 입사를 준비할지,

아니면 대학원을 들어갈지요.

제가 생각했을 때 제일 안정적이고 보장된 길은 복직인 것 같아요.

팀장님께서 다시 복직을 하게되면 ML/DL과 관련된 팀으로 옮겨주겠다 하셨거든요.

그리고 주니어로서 ML/DL쪽 취업시장이 쉽지 않다는 측면에서

제 가까운 지인들은 복직을 추천하더라구요.

그치만 언젠가

혼자 공부하면서 또 네이버부스트캠프 교육을 들으면서

제가 무엇을 공부할 때 재밌어하는지를 생각해본 적이 있어요.

다름 아닌 논문 스터디를 할 때 새로운 모델을 이해하는 그 과정이 재밌더라구요.

그리고 특정 질문에 대해 서로가 생각하는 바를 이야기 나누는 그 과정도 너무 재밌어요.

또한 저는 특정 문제를 해결하기 위해

기존에 없던 새로운 model architecture을 제안해내는 역량을 가지고 싶다는 생각을 하곤 해요.

제가 재밌어하는 공부와 욕심이 나는 공부를 생각해봤을 때,

과연 복직하고 나서의 팀에서

이 공부들을 진행할 수 있을지 의문이 들어요.

그럼에도 불구하고 지금껏 선뜻 퇴사라는 용기를 내지 못했던 이유는,

나름 안정적인 생활에서 벗어나 다시 원점으로 돌아가야 한다는 두려움 때문이기도 하고,

과연 내가 원하는 일을 해낼만한 실력을 갖춘 사람일까 하는생각 때문이기도 해요.

그치만 지금은 생각이 달라졌습니다.

돈이야 나중에 벌면 되는 거고, 늦게 시작하면 뭐 어떻다고요.

돈과 나이를 생각하다가 정작 내가 하고 싶은 일들을 할 수 있는 기회를 놓쳐버리는 건 아닌지,

오히려 시기를 놓치면 나중에 이 시간들에 미련을 가지지는 않을까하는 생각도 들고요.

그리고 지금껏 열심히 노력했던 저의 모습들을 잊고 있었더라구요.

나름의 최선을 다하고 있고,

지금까지 순수한 마음으로 공부 잘하고 있었고,

알게 모르게 충분한 역량을 쌓아가고 있다는 것을요!

미래는 어떻게 될지 모르지만

지금까지 노력했다는 것은 누구보다 제가 제일 잘 아니깐

원래 그랬듯 확신을 가지고 공부해보고자 합니다ㅎㅎ

[논문리뷰] DeepLabv3+의 이해

happy_ai — Sat, 27 Nov 2021 22:32:17 +0900

이 글에서는 DeepLabv3+모델 논문인

'Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation'

에 대해 다뤄볼 예정입니다.

(링크: https://arxiv.org/pdf/1802.02611.pdf)

이 논문을 읽어본 이유는지난 Semantic Segmentation 경연 때,

저의 최종 모델이 DeepLabv3+였기 때문입니다.

적어도 최종적으로 사용한 모델에 대해서는

논문을 보는 시간을 가져야겠다는 생각하에 이 글을 준비해봤습니다.

그러면 본론으로 들어가겠습니다!

[DeepLabv3+의 주요 특징과 각 특징의 장점]

먼저 DeepLabv3+의 주요 특징 먼저 나열하겠습니다.

ㆍASPP(Atrous Spatial Pyramid Pooling)

ㆍencoder-decoder structure

ㆍdepthwise separable convolution

각 특징의 장점을 간략히 설명하면 아래와 같습니다.

1) ASPP(Atrous Spatial Pyramid Pooling)

기본적으로 ASPP를 사용하기 때문에

하나의 이미지를 다양한 크기의 조각에서 바라볼 수 있게 되므로,

비교적 풍부한 문맥적인 정보를 추출할 수 있습니다.

DeepLabv3에서 쓰던 ASPP에 대한 설명은 여기서는 생략하도록 하겠습니다.

대신 Atrous convolution에 대한 내용은 아래에서 다시 다루도록 할게요.

(DeepLabv3 논문: https://arxiv.org/pdf/1706.05587.pdf)

(아래는 DeepLabv3에서의 ASPP 구조 사진)

출처: https://arxiv.org/pdf/1706.05587.pdf

2) encoder-decoder structure

encoder-decoder 구조를 사용하기 때문에

위에서 추출한 정보를 가지고 segmentation을 진행할 시,

물체의 경계가 모호하지 않도록 공간적인 정보를 최대한 유지할 수 있게 됩니다.

기본적으로 semantic information(=encoder의 output)은

encoding시에 pooling과 striding을 주는 convolution으로 인해

물체 경계와 관련된 정교한 정보들을 잃게 됩니다.

그렇다면 누군가는

'feature map(=semantic information)을 더 정교하게 만들면 되지 않나?'

라는 질문을 할 수 있을 겁니다.

하지만 논문에서는 (논문이 나온 시점에서) 성능이 좋은 neural network의 구조와

한정된 GPU 메모리를 고려했을 때,

feature map(encoder의 output)의 크기는 input 사진의 크기보다

8배이상 더 작아야 된다고 합니다.

아래 사진에서 왼쪽에서 3번째 사진은

위에서 언급한 ASPP와 encoder-decoder structure이 동시에 적용된 사진입니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

3) depthwise separable convolution

depthwise separable convolution을 활용하기 때문에

정확도와 속도의 trade-off를 해결할 수 있습니다.

논문의 저자는 (논문이 나온 시점에서) 최근 depthwise separable convolution이 성공을 이뤘기 때문에,

semantic segmentation에서 사용하기에 적합하고

속도와 정확도 두가지 측면에서 모두 이점을 가지도록

기존 Xception model에 depthwise separable convolution을 적용했다고 합니다.

Xception model에 대한 내용은 여기서는 설명하지 않겠습니다.

(Xception 논문: https://arxiv.org/pdf/1610.02357.pdf)

(아래 사진은 Xception architecture)

출처: https://arxiv.org/pdf/1610.02357.pdf

그리고 수정된 Xception 모델은 ASPP모듈에 적용시켰다고 합니다.

depthwise separable convolution에 대한 더 자세한 설명은

아래에 작성해두었습니다.

[Atrous convolution / Depthwise seperable convolution / Deepabv3 / Decoder / modified Xception]

부제목이 너무 길죠?ㅎㅎ

다른게 아니라 이 논문의 chapter 3에서는 위와 관련된 짧막한 설명을 해주기 때문에,

여기에서도 각 개념에 대해 짧게 정리해보는 시간을 가지려 합니다.

위의 [DeepLabv3+의 주요 특징과 각 특징의 장점] 에서는

DeepLabv3+의 가장 대표되는 특징 3개와 이들의 장점에 대해 소개했다면,

이번에는 DeepLabv3+에 쓰이는 개념들에 대해 짧막하게 소개하는 과정이라고

생각하면 될 것 같습니다.

1. Astrous convolution

Astrous convolution은 DeepLab논문에 처음 등장한 용어입니다.

아래 사진의 위쪽 그림은 1차원에서의 일반적인 convolution이고,

아래 그림은 1차원에서의 astrous convolution 입니다.

출처: https://arxiv.org/pdf/1606.00915.pdf

이로인해 receptive field의 영역이 커지는 효과를 줄 수 있습니다.

논문에서는 receptive field를 'field-of-view'라고 표현했네요.

Astrous convolution을 수식으로 표현하면 아래와 같습니다.

여기서 r=1일때, 일반적인 convolution을 뜻하게 됩니다.

따라서 논문에서는 astrous convolution을 기존 convolution을 generalize한 버전이라고 표현하고 있습니다.

astrous rate값에 따라 receptive field의 크기가 달라지는것을 이용해,

(값이 클수록 receptive field 크기 또한 커지게 되겠죠.)

ASPP에서는 rate를 다양하게 하여 multi-scale 정보를 읽고 있습니다.

2. Depthwise separable convolution

Depthwise separable convolution은 일반적인 convolution을

두가지 과정을 통해 진행하는 것 입니다.

먼저 depthwise convolution을 진행하고,

pointwise convolution(1 x 1 convolution)을 진행하게 됩니다.

이것의 장점은 연산 복잡도를 크게 감소시켜준다는 것입니다.

아래 사진은 Depthwise separable convolution을 나타낸 것입니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

그림에서도 알 수 있다시피,

depthwise convolution은 각 채널마다 특정 커널이 존재하고,

이 커널을 통해 해당 channel에 대해서만 convolution을 진행합니다.

그 후 pointwise convolution에서는

depthwise convolution의 결과물에 대해서 1 x 1 convolution을 진행하게 됩니다.

이 논문에서는 Astrous convolution에다 Depthwise separable convolution을 적용시켰고,

이를 astrous separable convolution이라고 부르고 있습니다.

astrous separable convolution을 적용 시에

모델의 성능은 비슷하게 유지되지만

연산 복잡도는 크게 감소시켰다고 합니다.

3. DeepLabv3 as encoder

위에서 언급했다시피 DeepLabv3+에서는 encoder-decoder구조를 사용하고 있습니다.

이 때 encoder에는 기존 DeepLabv3모델의 구조를 사용합니다.

참고로 DeepLabv3에서도 ASPP를 쓴다는 것을 염두하시길 바랍니다.

4. Proposed decoder

DeepLabv3+의 이전 버전인 DeepLabv3는 output stride가 16입니다.

(모델의 최종 값의 크기가 input에 들어가는 이미지 크기보다 16배 작다는 의미입니다.)

DeepLabv3는 이를 bilinearly upsample을 해서

input 이미지와 해상도를 같게 해줬는데

이 과정에서 세밀한 경계값들의 정보가 손실된다는 문제점이 있었습니다.

그래서 전에 반복해서 언급했듯이 DeepLabv3+에서는 decoder를 도입한거구요.

아래 그림은 DeepLabv3+ 구조를 나타냅니다.

파란색 큰 박스가 encoder, 빨간색 큰 박스가 decoder를 의미합니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

5. Modified Aligned Xception

DeepLabv3+에서는 기존 Aligned Xception모델을

semantic segmentation에 적합하도록 수정하여 사용했습니다.

바뀐 점은 아래와 같습니다.

(1)

기존 Xception의 entry flow network structure은 건드리지 않되,

middle flow 부분을 더 깊게 만들었습니다.

(2)

모든 max pooling 연산을 stride를 가진 depthwise separable convolution으로 대체했습니다.

아마 정보의 손실을 막고자 이렇게 변경하지 않았나 싶습니다.

(3)

MobileNet구조와 비슷하게 3x3 depthwise separable convolution이 일어날 때마다,

batch normalization과 ReLU를 수행해줬습니다.

위 그림의 DCNN 과정은

수정된 버전의 Aligned Xception을 통해 이뤄집니다.

아래 그림은 수정된 Xception 구조 입니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

[여러 실험들]

4장 Experimental Evalution에 등장한 실험에 대해 소개하겠습니다.

1. Decoder Design Choices

논문에서는 decoder가 어떤 구조일 때 좋은 성능을 내는지 소개하고 있습니다.

논문에서 실험한 바는 아래와 같습니다.

(1) encoder에서부터 온 low-level feature map의 channel을 몇으로 줄일 때 성능이 가장 좋은지

(2) 3 x 3 convolution 부분의 구조를 어떻게 했을 때 성능이 가장 좋은지

(1) encoder에서부터 온 low-level feature map의 channel을 몇으로 줄일 때 성능이 가장 좋은지

참고로 encoder에서부터 온 low-level feature map을
1 x 1 convolution을 통해 채널 수를 줄이는 과정은

아래 그림에서의 초록색 박스 부분입니다.

해당 실험의 결과는 아래 테이블과 같습니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

위의 사진에서 보다시피 채널을 48로 줄일 때 제일 좋은 성능을 보여주고 있습니다.

(2) 3 x 3 convolution 부분의 구조를 어떻게 했을 때 성능이 가장 좋은지

참고로 3 x 3 convolution 부분은

아래 그림에서의 초록색 박스 부분입니다.

해당 실험의 결과는 아래 테이블과 같습니다.

출처: https://arxiv.org/pdf/1802.02611.pdf

위에서 보듯이 encoder의 Conv2 feature map과 encoder의 결과물을 concat한 것에 대해

[3 x 3, 256] convolution을 2번 했을 때가 제일 성능이 좋았습니다.

또한 encoder의 low-level feature을 Conv2이외에도 Conv3을 같이 썼을 때

Conv2만 썼을 때의 성능보다 안좋았기 때문에,

Conv2의 정보만 사용하기로 하였습니다.

2. ResNet-101 as Netwark Backbone

논문 저자들은 ResNet-101을 backbone으로 설정했을 때,

다양한 inference 전략을 성능과 연산량 두가지 측면에 대해 실험하였습니다.

아래는 이 실험을 테이블로 표현한 것입니다.

실험 주요결과는 사진 위에 필기해뒀습니다.

참고로 아래의 OS는 output stride를 뜻합니다.

3. Improvement along Object Boundaries

앞에서는 DeepLabv3+는 segmentation을 할 때,

더 정교한 경계선 정보를 얻기 위해 encoder-decoder 구조를 사용한다고 했습니다.

논문에서는 단순히 bilinear upsampling을 했을 때와

decoder를 사용했을 때의 성능을 비교해

과연 실제로 encoder-decoder구조가 경계선 정보를 잘 표현하는지 실험했습니다.

아래는 bilinear upsampling과 decoder를 사용했을 때의 성능을

비교한 그래프와 사진입니다.

(여기서 Trimap Width에 대해서는 소개하지 않겠습니다.)

출처: https://arxiv.org/pdf/1802.02611.pdf

(a)에서 특정 Trimap Width를 잡고 mIOU값을 비교한다면

bilinear upsampling했을 때 보다 decoder를 사용했을 때가 더 성능이 좋음을 알 수 있고,

(b)에서는 bilinear upsampling했을 때 보다 decoder를 사용했을 때가

더 경계선 정보를 잘 표현함을 알 수 있습니다.

4. Experimental Results on Cityscapes

아래 사진은 Cityscapes dataset에 대해

여러 모델의 testset mIOU값을 비교한 결과입니다.

(참고로 train dataset에는 coarse annotation도 포함해서 훈련시켰다고 합니다.)

출처: https://arxiv.org/pdf/1802.02611.pdf

위에서 알 수 있다시피 DeepLabv3+는

논문이 나온 시점에서 Cityscapes dataset에 대해 sota를 차지했습니다.

[Conclusion]

드디어 Conclusion입니다!

지금까지 DeepLabv3+에 대해 살펴봤는데요.

수미상관같지만ㅎㅎ DeepLabv3+는 아래와 같이 요약됩니다.

ㆍASPP(Atrous Spatial Pyramid Pooling)

ㆍencoder-decoder structure

ㆍdepthwise separable convolution

처음 이 용어를 봤을 때보다

이 글을 읽고 위의 용어 3개에 어렴풋이 감이 잡혔다면,

제 목적은 달성하지 않았나 싶습니다.

이번 글은 다른 글보다 훨씬 시간이 많이 소요되었네요.

아마 논문의 많은 부분을 설명하고자 하는 욕심이 있었던 것 같습니다.

제가 이해한 바를 기록으로 남기는 것이

정말 가치있음을 알고 있지만,

이로 인해 다른 공부가 지연되는 것은 바람직한 방향은 아닌 듯하여

앞으로의 논문 리뷰는 핵심 위주로 정리할 예정입니다!

휴우 이제 드디어 다른 공부를 하러 가야겠습니다ㅎㅎ

[9주차 - Day38] MMDetection 사용법

happy_ai — Sun, 21 Nov 2021 23:58:21 +0900

* 해당 글은 2021.09.28에 임시저장만 했던 글로, 일부 수정해 2021.11.21에 업로드한 글입니다.

이번 글은 Object Detection 경연 진행 중 알게 된

MMDetection 사용법에 대해 일부 소개하고자 합니다.

여담을 말하자면,

Object Detection 경연에서는 새로운 라이브러리를 마주할 때의 대처능력을 길러보고자

한번도 경험해보지 않은 MMDetection을 사용해봤습니다.

MMDetection 사용법에 대해서는 원하는 자료가 많지는 않았었는데,

특히 한국어로 원하는 내용 찾기는 더 어려웠습니다.

저번 포스팅에서도 언급했지만 MMDetection은 공식 홈페이지 튜토리얼이 잘되어있으므로,

찾고자 하는 내용이 있으면 공식 홈페이지를 먼저 참고하고

그래도 없으면 기존의 github 코드를 뜯어보시길 바랍니다.

여기서 소개할 내용은 아래와 같습니다.

1. MMDetection의 config파일 형태
2. 새로운 데이터셋 사용방법
(조건: annotation형식이 coco형식을 그대로 따르되, 클래스 이름과 개수만 바뀐 경우)
3. augmentation 변경 방법
4. backbone, neck, head, loss 변경 방법
5. optimizer 변경방법

1. MMDetection의 config파일 형태

먼저 공식 홈페이지에서는 아래와 같이 config파일 형태를 설명하고 있습니다.

출처:https://mmcv.readthedocs.io/en/latest/understand_mmcv/config.html

설명만 보면 감이 잘 잡히지 않으니, 실제 예시를 보겠습니다.

아래는 fast_rcnn_r50_fpn_1x_coco.py라는 이름을 가진 config파일입니다.

이 경우는, 아래의 config를 base로 삼고 있고 추가로 6 line부터 적혀진 설정값을 가지고 있습니다.

다시 말하자면 fast_rcnn_r50_fpn_1x_coco.py config파일은

아래 4개의 config에 적혀진 key:value값을 기본적으로 가지고 있으며

추가적으로 6 line에서부터 적혀진 key:value값을 가지고 있는 형태입니다.

2. 새로운 데이터셋 사용방법

(조건: annotation형식이 coco형식을 그대로 따르되, 클래스 이름과 개수만 바뀐 경우)

여기서는 새로운 데이터셋 이름을 trash라고 정의했습니다.

(참고로 진행했던 경연이 10가지 종류의 쓰레기를 Object Detection하는 태스크였습니다.)

또한 모델은 faster_rcnn_r50_fpn_1x을 쓴다는 가정하에 작성되었습니다.

1. 첫번째 방법

1-1) mmdetection > mmdet > datasets > trash.py (TrashDataset class) 를 새로 생성한다.

* 내용은 coco.py를 복붙하되, 클래스 명과 CLASSES변수값만 커스텀하도록 한다.

1-2) mmdetection > configs > _base_ > datasets > trash_detection.py 를 새로 생성한다

* 내용은 coco_detection.py를 복붙하되, dataset_type과 data_root dict값을 변경한다. (데이터 경로도)

1-3) mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

* 내용은 faster_rcnn_r50_fpn_1x_coco.py를 복붙하되, '../_base_/datasets/coco_detection.py',를 변경한다.

2. 두번째 방법

mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

* 내용은 faster_rcnn_r50_fpn_1x_coco.py를 복붙하되, 아래를 참고하여 key:value를 커스텀하여 추가한다.

출처: https://mmdetection.readthedocs.io/en/latest/tutorials/customize_dataset.html

3. augmentation 변경 방법 (mmdetection에서는 pipeline 과정에서 augmentation이 수행)

1. 첫번째 방법

1-1) mmdetection > configs > _base_ > datasets > trash_detection.py을 생성한다.

* 내용은 coco_detection을 복붙하되, train_pipline과 test_pipeline의 값을 바꿔준다.

1-2) mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

* 내용은 faster_rcnn_r50_fpn_1x_coco.py를 복붙하되, '../_base_/datasets/coco_detection.py',를 변경한다.

2. 두번째 방법

mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

* 내용은 faster_rcnn_r50_fpn_1x_coco.py를 복붙하되, config file에서 train_pipeline과 test_pipeline의 value값을 수정한다.

참고

출처:&amp;amp;nbsp;https://mmdetection.readthedocs.io/en/latest/tutorials/data_pipeline.html

4. backbone, neck, head, loss 변경 방법

어떻게 바꿔야하는지는 공식 홈페이지 튜토리얼에 잘 나와있으므로 아래 url을 참고하면 됩니다.

https://mmdetection.readthedocs.io/en/latest/tutorials/customize_models.html

Tutorial 4: Customize Models — MMDetection 2.17.0 documentation

Tutorial 4: Customize Models We basically categorize model components into 5 types. backbone: usually an FCN network to extract feature maps, e.g., ResNet, MobileNet. neck: the component between backbones and heads, e.g., FPN, PAFPN. head: the component fo

mmdetection.readthedocs.io

대신 기존 MMDetection에 등록된 backbone, neck, head, loss를 확인하는 방법은

아래의 github코드를 참고하면 됩니다.

mmdetection에 등록된 backbone 확인: mmdetection/mmdet/models/backbones

mmdetection에 등록된 neck 확인: mmdetection/mmdet/models/necks

mmdetection에 등록된 head 확인:

mmdetection/mmdet/models/roi_heads

mmdetection/mmdet/models/seg_heads

mmdetection에 등록된 loss 확인: mmdetection/mmdet/models/losses

5. optimizer 변경 방법(조건: pytorch에서 지원하는 optimizer로 변경하고 싶은 경우)

MMDetection은 PyTorch에서 지원하는 optimizer를 모두 사용가능하게 하고 있습니다.

optimizer를 변경하는 방법은 아래와 같습니다.

1. 첫번째 방법

1-1) mmdetection > configs > _base_ > schedules > schedule_1x_##를 생성한다.

* schedule_1x.py를 복붙하되, optimizer의 value값을 변경한다.

1-2) mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

* 내용은 faster_rcnn_r50_fpn_1x_coco.py를 복붙하되, '../_base_/schedules/schedule_1x.py',를 변경한다.

2. 두번째 방법

mmdetection > configs > faster_rcnn > faster_rcnn_r50_fpn_1x_trash.py를 새로 생성한다.

아래 사진 처럼 optimizer를 지정해준다.

https://mmdetection.readthedocs.io/en/latest/tutorials/customize_runtime.html

예전에 작성된 글을 다듬어서 업로드합니다.

확실히 시간이 지난 후 다듬으려고 하니 기억이 희미해서,

그때 그때의 기록의 중요성을 다시 한번 느꼈습니다.

MMDetection을 사용하면서 config단위로 쉽게 모델을 변경할 수 있어서 좋았습니다.

이로인해 다양한 조합을 빠르게 실험시킬 수 있었어요.

또한 새로운 라이브러리를 마주할 때에 단시간에 적응하는 능력을 기를 수 있었습니다.

하지만 MMDetection에 등록된 모델에 한해서 실험을 돌리다보니,

최신 Transformer 계열의 SOTA 모델을 실험하지 못했던 것이 조금 아쉽긴 합니다.

[String] 프로그래머스 72410번 신규 아이디 추천

happy_ai — Sun, 21 Nov 2021 22:23:49 +0900

정말 오랜만에 알고리즘 풀이 포스팅입니다.

몇달동안 문제를 안풀었더니

기본적인 정규표현식마저 잊어버렸습니다ㅎㅎ

이제 슬슬 코딩테스트를 준비해야할 것 같아서,

많이는 아니더라도 꾸준히 풀이를 올리고자 합니다.

이번 문제는 문자열 문제입니다.

문제 출처: https://programmers.co.kr/learn/courses/30/lessons/72410

코딩테스트 연습 - 신규 아이디 추천

카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로

programmers.co.kr

문제 설명

카카오에 입사한 신입 개발자 네오는 "카카오계정개발팀"에 배치되어, 카카오 서비스에 가입하는 유저들의 아이디를 생성하는 업무를 담당하게 되었습니다. "네오"에게 주어진 첫 업무는 새로 가입하는 유저들이 카카오 아이디 규칙에 맞지 않는 아이디를 입력했을 때, 입력된 아이디와 유사하면서 규칙에 맞는 아이디를 추천해주는 프로그램을 개발하는 것입니다.
다음은 카카오 아이디의 규칙입니다.

아이디의 길이는 3자 이상 15자 이하여야 합니다.
아이디는 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.) 문자만 사용할 수 있습니다.
단, 마침표(.)는 처음과 끝에 사용할 수 없으며 또한 연속으로 사용할 수 없습니다.

"네오"는 다음과 같이 7단계의 순차적인 처리 과정을 통해 신규 유저가 입력한 아이디가 카카오 아이디 규칙에 맞는 지 검사하고 규칙에 맞지 않은 경우 규칙에 맞는 새로운 아이디를 추천해 주려고 합니다.
신규 유저가 입력한 아이디가 new_id 라고 한다면,

1단계 new_id의 모든 대문자를 대응되는 소문자로 치환합니다.
2단계 new_id에서 알파벳 소문자, 숫자, 빼기(-), 밑줄(_), 마침표(.)를 제외한 모든 문자를 제거합니다.
3단계 new_id에서 마침표(.)가 2번 이상 연속된 부분을 하나의 마침표(.)로 치환합니다.
4단계 new_id에서 마침표(.)가 처음이나 끝에 위치한다면 제거합니다.
5단계 new_id가 빈 문자열이라면, new_id에 "a"를 대입합니다.
6단계 new_id의 길이가 16자 이상이면, new_id의 첫 15개의 문자를 제외한 나머지 문자들을 모두 제거합니다.
     만약 제거 후 마침표(.)가 new_id의 끝에 위치한다면 끝에 위치한 마침표(.) 문자를 제거합니다.
7단계 new_id의 길이가 2자 이하라면, new_id의 마지막 문자를 new_id의 길이가 3이 될 때까지 반복해서 끝에 붙입니다.

예를 들어, new_id 값이 "...!@BaT#*..y.abcdefghijklm" 라면, 위 7단계를 거치고 나면 new_id는 아래와 같이 변경됩니다.

1단계 대문자 'B'와 'T'가 소문자 'b'와 't'로 바뀌었습니다.
"...!@BaT#*..y.abcdefghijklm" → "...!@bat#*..y.abcdefghijklm"

2단계 '!', '@', '#', '*' 문자가 제거되었습니다.
"...!@bat#*..y.abcdefghijklm" → "...bat..y.abcdefghijklm"

3단계 '...'와 '..' 가 '.'로 바뀌었습니다.
"...bat..y.abcdefghijklm" → ".bat.y.abcdefghijklm"

4단계 아이디의 처음에 위치한 '.'가 제거되었습니다.
".bat.y.abcdefghijklm" → "bat.y.abcdefghijklm"

5단계 아이디가 빈 문자열이 아니므로 변화가 없습니다.
"bat.y.abcdefghijklm" → "bat.y.abcdefghijklm"

6단계 아이디의 길이가 16자 이상이므로, 처음 15자를 제외한 나머지 문자들이 제거되었습니다.
"bat.y.abcdefghijklm" → "bat.y.abcdefghi"

7단계 아이디의 길이가 2자 이하가 아니므로 변화가 없습니다.
"bat.y.abcdefghi" → "bat.y.abcdefghi"

따라서 신규 유저가 입력한 new_id가 "...!@BaT#*..y.abcdefghijklm"일 때, 네오의 프로그램이 추천하는 새로운 아이디는 "bat.y.abcdefghi" 입니다.

[문제]

신규 유저가 입력한 아이디를 나타내는 new_id가 매개변수로 주어질 때, "네오"가 설계한 7단계의 처리 과정을 거친 후의 추천 아이디를 return 하도록 solution 함수를 완성해 주세요.

[제한사항]

new_id는 길이 1 이상 1,000 이하인 문자열입니다.
new_id는 알파벳 대문자, 알파벳 소문자, 숫자, 특수문자로 구성되어 있습니다.
new_id에 나타날 수 있는 특수문자는 -_.~!@#$%^&*()=+[{]}:?,<>/ 로 한정됩니다.

[입출력 예]nonew_idresult

예1	"...!@BaT#*..y.abcdefghijklm"	"bat.y.abcdefghi"
예2	"z-+.^."	"z--"
예3	"=.="	"aaa"
예4	"123_.def"	"123_.def"
예5	"abcdefghijklmn.p"	"abcdefghijklmn"

입출력 예에 대한 설명

입출력 예 #1
문제의 예시와 같습니다.

입출력 예 #2
7단계를 거치는 동안 new_id가 변화하는 과정은 아래와 같습니다.

1단계 변화 없습니다.
2단계 "z-+.^." → "z-.."
3단계 "z-.." → "z-."
4단계 "z-." → "z-"
5단계 변화 없습니다.
6단계 변화 없습니다.
7단계 "z-" → "z--"

입출력 예 #3
7단계를 거치는 동안 new_id가 변화하는 과정은 아래와 같습니다.

1단계 변화 없습니다.
2단계 "=.=" → "."
3단계 변화 없습니다.
4단계 "." → "" (new_id가 빈 문자열이 되었습니다.)
5단계 "" → "a"
6단계 변화 없습니다.
7단계 "a" → "aaa"

입출력 예 #4
1단계에서 7단계까지 거치는 동안 new_id("123_.def")는 변하지 않습니다. 즉, new_id가 처음부터 카카오의 아이디 규칙에 맞습니다.

입출력 예 #5
1단계 변화 없습니다.
2단계 변화 없습니다.
3단계 변화 없습니다.
4단계 변화 없습니다.
5단계 변화 없습니다.
6단계 "abcdefghijklmn.p" → "abcdefghijklmn." → "abcdefghijklmn"
7단계 변화 없습니다.

이 문제는 정규표현식을 알고있느냐 없느냐가

빠른 문제 풀이를 결정짓는 것 같습니다.

여기에서 사용했던 정규표현식을 자주 봐두어

잊지 않도록 해야할 듯 합니다.

다른 문자열 문제들도 자주 풀어야 겠네요.

import re


def solution(new_id):
    answer = new_id.lower()  # 1단계) 소문자로 치환
    answer = re.sub(r"[^a-z-_.0-9]", '', answer)  # 2단계) 소문자, 숫자, '-', '_', '.'이외 문자 제거
    answer = re.sub(r"[.]+[.]", '.', answer)  # 3단계) '.'가 2번이상 연속되면 하나의 '.'로 치환
    answer = re.sub(r"^[.]", "", answer)  # 4단계) '.'가 처음이나 끝에 위치하면 제거
    answer = re.sub(r"[.]$", "", answer)  # 4단계) '.'가 처음이나 끝에 위치하면 제거
    if answer == "":
        answer = "a"
    if len(answer) >= 16:
        answer = answer[:15]
        if answer[-1] == '.':
            answer = answer[:-1]
    if len(answer) <= 2:
        cur_len = len(answer)
        add_char = answer[-1]
        for i in range(3-cur_len):
            answer += add_char

    return answer

[13주차 - Day55] MMDetection의 pipeline을 custom하는 법

happy_ai — Mon, 25 Oct 2021 01:04:47 +0900

지난 Object detection 경연에서는 MMDetection을 사용했습니다.

* 참고

https://github.com/open-mmlab/mmdetection

GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and Benchmark

OpenMMLab Detection Toolbox and Benchmark. Contribute to open-mmlab/mmdetection development by creating an account on GitHub.

github.com

MMDetection을 사용하고 있는 동안 생각보다

기존의 코드를 수정하고 싶을때나,

기존에는 없는 것을 새로 추가하고 싶을때가

많았습니다.

실제로 저는 기존 Mosaic, MixUp 클래스를 수정하여 새로운 클래스를 등록했고,

Mosaic, MixUp의 적용이 40%, 10%가 되게끔 새로운 클래스를 등록하기도 했습니다.

(50%는 Mosaic, MixUp 적용 모두 안함)

또한 Label smoothing를 위해 새로운 클래스를 등록해보기도 했고,

log에 뜨는 시간을 한국시간으로 표시하고 싶어 이와 관련된 클래스를 등록하기도 했습니다.

이번 게시물은 MMDetection에서 새로운 pipeline을 등록하는 것을 다뤄볼 예정입니다.

특히 위에서 언급한 새로운 MixUp 클래스를 등록하는 것을 예시로

이 과정을 설명하려고 합니다.

먼저 MMDetection에서 pipeline은 데이터를 변환시키는 역할을 한다고 생각하면 됩니다.

MMDetection에서의 전형적인 pipeline 단계는 아래와 같습니다.

출처: https://mmdetection.readthedocs.io/en/v2.17.0/tutorials/data_pipeline.html

살펴보면 크기를 조정하는 Resize, 좌우반전을 랜덤하게 적용하는 RandomFlip,

이미지 픽셀을 정규화해주는 Normalize, 패딩처리를 해주는 Pad

가 있음을 확인할 수 있습니다.

MMDetection에서 기본적으로 제공하는 pipeline은

https://github.com/open-mmlab/mmdetection/blob/master/mmdet/datasets/pipelines/transforms.py

이 파일에서 확인할 수 있습니다.

Albumentation이나 torchvision에서 제공하는 tranforms를 써봤다면

이런 이미지 변환 효과에 익숙할겁니다.

여기서는 'NewMixUp'이라는 새로운 pipeline을 등록하여 사용해보도록 하겠습니다.

먼저 기존 MixUp 클래스가 있음에도 불구하고

새로운 클래스를 만든 이유는 아래와 같습니다.

기존 MixUp 클래스에는 적용되는 확률값을 조정할 수 없습니다.
즉 무조건 1의 확률로 모든 데이터셋에 대해 MixUp이 적용됩니다.
타겟 이미지(MixUp을 위해 랜덤하게 선택되는 이미지)의 bounding box 개수에 제한을 주고 싶었습니다.
왜냐하면 EDA를 한 결과 평균적으로 4.72의 bounding box가 있었으며,
bounding box가 6개 이하인 데이터가 전체의 75%가 되었기 때문입니다.
따라서 타겟 이미지에 너무 많은 bounding box가 있으면 안되겠다고 생각했습니다.

* 어떻게 코드를 수정했는지는 여기서는 다루지 않겠습니다.

미리 말하자면 새로운 pipeline을 등록하여 사용하는 방법은 여러개가 될 수 있고,

따라서 제가 작성한 방법이 유일한 방법은 아닙니다.

1. custom 폴더를 새로 만들어 NewMixUp이 선언된 new_mixup.py 작성하기.

저 같은 경우에는 custom한 클래스가 5개(.py파일 5개)였기 때문에,

이것들을 따로 cutom 폴더로 관리하고 싶었습니다.

따라서 mmdetection > mmdet > custom 폴더를 새로 만들었습니다.

2. mmdetection > mmdet > core > utils > __init__.py에 'NewMixUp' 포함시키기

line 5, 13에서 처럼 NewMixUp을 등록해줍니다.

3. 사용하는 config파일의 train_pipeline에서 NewMixUp을 지정해주기

위에서 __init__.py에 NewMixUp을 등록했다면

config파일에서 따로 해당 클래스를 import해줄 필요없이 바로 사용하면 됩니다.

끝!

MMDetection을 사용하면서 느낀점은 한글자료가 별로 없다는 것이었습니다.

따라서 MMDetection 공식 홈페이지와 github 코드를 참고하며 코드를 작성해봤습니다.

혹시 MMDetection을 사용해볼 예정이라면

다름아닌 공식 홈페이지와 github 코드를 보며 공부하는 것을 추천합니다.

[Numpy] 함수

happy_ai — Wed, 20 Oct 2021 23:59:42 +0900

▶ numpy.vstack

input으로 들어오는 배열이 1차원이라면 (1,N)으로 차원을 변경하여 사용됨.

첫번째 axis를 기준으로 배열을 row wise하게 붙여줌.

(따라서 첫번째 차원을 제외한 나머지 차원의 크기가 같아야한다.

예시로 1*2*3 크기의 배열과 2*2*3 크기의 배열은 np.vstack이 가능하지만,

1*2*3 크기의 배열과 2*2*4크기의 배열은 np.vstack이 불가능하다.)

[12주차 - Day51] COCO 데이터 형식 EDA

happy_ai — Wed, 20 Oct 2021 03:07:14 +0900

새삼 교육이 시작된지 51일차라는 것이 놀랍네요.

이번 경연 주제는 Semantic segmentation입니다.

데이터 Annotation file은 COCO format과 동일하게 제공되었습니다.

본격적인 경연에 앞서 EDA를 하는 과정을 가졌고,

해당 코드를 개인 Github에 올렸습니다.

데이터 Annotation file이 COCO format과 동일하므로,

혹시 COCO format의 Semantic segmentation을 다루고 있다면

아래의 코드가 활용 가능할 듯 합니다.

https://github.com/note823/coco_semantic_segmentation_format_eda/blob/main/eda.ipynb