정리 조금/Basics 17

Molecular Descriptor

Molecular descriptor는 화학물질을 수학적인 처리가 가능하도록 표시하는 방법이다.이는 표기 차원에 따라 아래의 여러 종류로 나뉘어진다.0D-descriptors (i.e. constitutional descriptors, count descriptors)1D-descriptors (i.e. list of structural fragments, fingerprints)2D-descriptors (i.e. graph invariants)3D-descriptors (such as, for example, 3D-MoRSE descriptors, WHIM descriptors, GETAWAY descriptors, quantum-chemical descriptors, size, steric, sur..

Tanimoto Coefficient

Tanimoto Coefficient유사도를 측정하는 metric중 하나이다. Tanimoto coefficient (or similarity)는 화합물 사이의 유사도, 약물 유사도를 측정할때 많이 사용되는 방법이다. 사실 이 유사도는 Jaccard similarity의 continuous version으로, 그냥 Jaccard similarity로 표기하는 사람도 있다. Pearson correlation coefficient 와 point-biserial correlation coefficient 의 관계와 비슷하다. 두 집합의 교집합 크기를, 두 집합의 합집합 크기로 나눈 값으로 정의되며, 식은 아래와 같다.$$\frac{|A \cap B|}{|A \cup B|}$$직관적으로 A와 B사이에 얼마나 ..

parquet

Intro Parquet은 일반적으로 herringbone 스타일 패턴(V shape)으로 짜여진 바닥 나무 블록이다. 컴퓨터, 특히 data science에서 parquet은 종종 코드를 보다보면 데이터 포맷으로 등장하는데, 하둡에서 많이 사용되는 column-oriented 방식으로 압축 및 저장하는 형태이다. 이 방식은 기존의 방식보다 데이터를 효율적으로 처리 가능하다. Google research에서 2010년에 발표된 방법론 , " Dremel: Interactive Analysis of Web-Scale Datasets ", 에 영감을 받았다고 한다. Parquet Row-oriented & Column-oriented Parquet는 column-oriented 방법으로 row-oriente..

Deep Copy & Shallow Copy

Intro 코딩을 하다보면 자주 객체를 복사하게 된다. 그런데 Python에서 가끔 복사 된 객체를 바꾸었더니, 원본도 같이 바뀌는 이상한 현상이 발생하기도 한다. (아래 참고) import copy # 원본 리스트 original_list = [1, 2, [3, 4]] # 복사 copied_list = original_list # 복사본의 수정 copied_list[2].append(5) # 결과 print(original_list) # [1, 2, [3, 4, 5]] print(copied_list) # [1, 2, [3, 4, 5]] 이유는 바로 나도 모르게 Shallow copy를 사용했기 때문이다. Shallow Copy Shallow copy란 원본 객체와 복사본 객체 모두 같은 내부 객체를 ..

Macro & Micro Averaging

IntroMulticlass에서 Overall Accuracy와 Macro F1 score는 언제 같아지는가? 라는 질문으로 시작된 몇가지 metrics에 대한 조사. 생각보다 부정확하게 알고있었다...! Precision, Recall 그리고 F1 score에 대해서는 아래 포스트에서 다루었으니, 오늘은 multicalss에서의 metric 대해 조금만 생각해보고 넘어가자.https://jaehong-data.tistory.com/5 F1 scoreIntro 이진 분류는 두가지 범주를 갖는 표본을 분류하는 것이다. 분류는 일상 뿐 아니라 여러 산업에서 중요하게 사용되어 왔다. 전통적인 통계 모형인 (MLE를 IRLS로 추정하는) logistics regression부터,jaehong-data.tisto..

Inner & Outer Product

의미 Inner product(內積 , 내적)와 Outer product(外積, 외적)는 공대시절 의미는 모른채 식을 외워 계산에만 적용했다. 의미는 백터 사이의 product, 즉 곱 연산으로 매우 간단하다. 뭔가 내적 외적이라 둘 사이에 반대되는 개념같아 보이지만, 그냥 다른 두 연산이다 (내 얕은 통찰로는 그렇다). 두 벡터 $\textbf{x}$와 $\textbf{y}$에 대해 내적과 외적이 어떻게 계산되는지, 어떤 결과가 나오는지 그리고 어떤 기하적 의미를 갖는지 엄밀하지 않게 알아보자. 내적 우선 개인적으로 나름 내린 내적의 의미는 두 벡터가 협동하여 낼 수 있는 힘의 크기이다. 따라서 결과는 스칼라로, 두 벡터의 방향성이 일치하는 정도만큼 두 벡터의 크기를 곱한다. 예를들어, 아래와 같이 방..

Internet Protocol

용어 Packet: Packet(패킷)은 pack과 bucket의 합친 말로, 네트워크가 전달하는 데이터의 정형화된 조각이다. 조각내어 보내는 이유는 트래픽이 많아지는 현상을 방지하기 위함. (대역폭이라는 개념이 들어감) 깊게들어가면 어려우니, 이정도만 알아두자. Forwarding: Forwarding은 패킷을 받으며, 보내는 작업을 하는 작은 개념이다. Routing: Routing은 패킷이 그 패킷의 header에 쓰여있는 목적지 까지 갈 수 있도록 경로(route)를 찾는 과정으로, forwarding을 할 수 있게 갱신하는 작업이다. Redundancy와 fault tolerance에 대한 내용이 아래 잘 나와있으니 읽어보자, 재미있다. https://www.khanacademy.org/comp..

Pixel

Pixel 픽셀은 디지털 이미지와 디스플레이를 구성하는 최소단위, Picture element의 약자다. 컴퓨터에서 이미지를 확대해보면, 아주 작은 네모와 그에 할당되어있는 색이 채워져있는걸 확인 할 수 있다. 각 픽셀은 8bit으로 표현 가능한 0 ~ 255 값을 갖는다. 이미지 자료는 보통 이러한 픽셀값의 집합으로 표현된다. 또한 이미지는 2차원의 모양이므로, 그에따라 하나의 2차원 행렬과 같은 모양이 digital image로 사용된다. 별다른 명시가 없다면 각 픽셀은 검정(0)부터 하얀색(255)사이의 값으로 무채색 이미지를 표현한다. Color 만약 색을 지정한 뒤 픽셀값을 준다면, 해당 색의 강도가 픽셀값에 따라 할당된다. 때문에 일반적으로 색을 표현하기 위해 픽셀당 여러 색의 값을 주고 섞으..

Correlation vs. Causation

상관성과 인과성에 대해 아주 간단하게 정리한 예전 포스트 “Correlation does not imply causation” “Correlation is only a necessary condition for causation” Reversal of causality The greater the number of firefighters dispatched to the scene of a fire, the greater the scale of the fire. Therefore, an increase in the number of firefighters dispatched is a cause of an increase in fires. Although there is a strong correlation..

IC 50

IC 50 Half maximal inhibitory concentration (IC50) 는 in vitro 에서 생물학적인 활성도를 억제(또는 촉진)하는 chemical의 효과를 나타내는 지표이다. 의미 IC50은 생물학 및 약물 연구에서 흔히 사용되는 개념 중 하나로, 어떤 물질이 생물학적 프로세스에 얼마나 강력하게 영향을 미치는지를 측정하는 데 도움이 된다. 만약 어떤 약물이나 화합물을 개발하고 있을 때, 이 약물이 특정 생물학적 프로세스를 얼마나 효과적으로 억제 또는 촉진하는지를 알고 싶을 것이다. 이때, 그 약물의 농도가 중요한 역할을 한다. IC50은 반응이 일어나는 데 필요한 약물의 농도를 나타낸다. 예를들어, 염증이 유발된 세포에 대한 어떤 화합물의 유용성을 조사하고 있을때를 생각해보자...