Llamaindex ChatBot

what is ChatBot Chat bot은 사용자가 질문을 하면 원하는 답변을 해주는 것을 이야기합니다. 아래는 Chat bot을 활용한 일부 예시 입니다. simple example system prompt example templet example llama-parser, faiss example

AI

/

NLP

/

llama index · 2024-03-19

Llamaindex RAG

what is RAG RAG는 Retrieval Augmented Generation의 약자로 언어 모델의 응답이 조금 더 좋은 결과를 도출하기 위한 것입니다. 이는 추가적인 데이터들을 기반으로 좋은 응답 결과를 보장하게 됩니다. 아래는 RAG를 활용한 일부 예시 입니다. simple example SentenceWindowNodeParser example llama-parser example llama-parser, faiss example

AI

/

NLP

/

llama index · 2024-03-18

Llamaindex retriever

what is retriever retriever는 검색엔진과 같은 역활을 합니다. index에 있는 값들을 query를 이용하여 관련된 내용을 추출해 내줍니다. how to use retriever 간단하게 사용하는 방식은 아래와 같이 사용할 수 있습니다. {% highlight shell %} retriever = index.as_retriever() nodes = retriever.retrieve(“{question}”) {% endhighlight %} how to use retriever advance retriever를 사용하는 고급 기법이 아래와 같이 존재합니다. 이방식은 index의 종류별로 상세하게 세팅을 하는 방법이며 retriever modes를 참고하여 다양한 retriever를 만들어 볼 수 있습니다. {% highlight shell %} retriever = summary_index.as_retriever( retriever_mode=”llm”, choice_batch_size=5, ) {% endhighlight %}

AI

/

NLP

/

llama index · 2024-03-15

Llamaindex pipeline

AI

/

NLP

/

llama index · 2024-03-14

Llamaindex embedding

what is embedding embedding은 입력을 받은 document or node에 있어서 vector로 나타내는것입니다. 이를 통하여 코사인 유사도와 같이 문서들간의 유사성을 계산하여 문서를 효율적으로 사용할 수 있게 됩니다. llama는 기본적으로 코사인 유사도를 사용하고 있으며 아래의 방식으로 다양한 embedding을 사용해 볼 수 있습니다. W. OpenAI OpenAI에서 사용하는 embedding을 사용하려면 아래와 같이 사용하면 됩니다. 하지만 유료인점을 참고해야합니다. {% highlight shell %} pip install llama-index-embeddings-openai {% endhighlight %} {% highlight python %} import os OPENAI_API_TOKEN = “sk-“ os.environ[“OPENAI_API_KEY”] = OPENAI_API_TOKEN from llama_index.embeddings.openai import OpenAIEmbedding from llama_index.core import Settings global Settings.embed_model = OpenAIEmbedding(embed_batch_size=42) # default is 10 per-index index = VectorStoreIndex.from_documents(documents, embed_model=embed_model) {% endhighlight %} W. hugging face hugging face를 사용하여 enbedding을 하는 방식은 아래와 같습니다. {% highlight shell %} pip install llama-index-embeddings-huggingface {% endhighlight %} {% highlight python %} from llama_index.embeddings.huggingface import HuggingFaceEmbedding from llama_index.core import Settings Settings.embed_model = HuggingFaceEmbedding( model_name=”BAAI/bge-small-en-v1.5” ) {% endhighlight %} W. hugging face(W. ONNX) hugging face를 ONNX로 사용하는 법은 아래와 같습니다. {% highlight shell %} pip install transformers optimum[exporters] pip install llama-index-embeddings-huggingface-optimum {% endhighlight %} {% highlight python %} from llama_index.embeddings.huggingface_optimum import OptimumEmbedding OptimumEmbedding.create_and_save_optimum_model( “BAAI/bge-small-en-v1.5”, “./bge_onnx” ) Settings.embed_model = OptimumEmbedding(folder_name=”./bge_onnx”) {% endhighlight %} W. langchain langchain에서 지원하는 다양한 embedding을 사용할 수 있습니다. langchain embeddings list {% highlight shell %} pip install llama-index-embeddings-langchain {% endhighlight %} {% highlight python %} from langchain.embeddings.huggingface import HuggingFaceBgeEmbeddings from llama_index.core import Settings Settings.embed_model = HuggingFaceBgeEmbeddings(model_name=”BAAI/bge-base-en”) {% endhighlight %} W. custom embedding 위에서 사용할 수 있는 다양한 embedding 이외에 다른 embedding을 직접 만들어서 활용하려면 아래와 같이 해볼 수 있습니다. {% highlight python %} from typing import Any, List from InstructorEmbedding import INSTRUCTOR from llama_index.core.embeddings import BaseEmbedding class InstructorEmbeddings(BaseEmbedding): def init( self, instructor_model_name: str = “hkunlp/instructor-large”, instruction: str = “Represent the Computer Science documentation or question:”, kwargs: Any, ) -> None: self._model = INSTRUCTOR(instructor_model_name) self._instruction = instruction super().__init__(kwargs) def _get_query_embedding(self, query: str) -> List[float]: embeddings = self._model.encode([[self._instruction, query]]) return embeddings[0] def _get_text_embedding(self, text: str) -> List[float]: embeddings = self._model.encode([[self._instruction, text]]) return embeddings[0] def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]: embeddings = self._model.encode( [[self._instruction, text] for text in texts] ) return embeddings async def _get_query_embedding(self, query: str) -> List[float]: return self._get_query_embedding(query) async def _get_text_embedding(self, text: str) -> List[float]: return self._get_text_embedding(text) {% endhighlight %} other embeddings 이외에도 다양한 embedding을 사용할 수 있으며 아래는 지원하는 embedding list 입니다. embeddings list

AI

/

NLP

/

llama index · 2024-03-13

Llamaindex index

what is index index는 RAG와 같이 검색을 하는 구조에서 빠르게 검색하기 위한 구조입니다. 추가적인 활용처로는 채팅봇과 같이 QA로 사용할 수 있습니다. vector store index index 기법에서 가장 흔하게 사용이 되는 방법입니다. 이는 vector store를 활용하여 indexing을 하는 방법입니다. 아래와 같이 document을 바로 활용하는 방법과 node를 활용하는 방법 2가지로 이루어져 있습니다. {% highlight python %} from llama_index.core import VectorStoreIndex index = VectorStoreIndex.from_documents(documents) {% endhighlight %} {% highlight python %} from llama_index.core.schema import TextNode node1 = TextNode(text=”", id_="") node2 = TextNode(text="", id_="") nodes = [node1, node2] index = VectorStoreIndex(nodes) {% endhighlight %} default vectorstore이외에도 다양한 custom vectorstore를 사용할 수 있으며 아래는 간단한 예시를 나타냅니다. {% highlight python %} import pinecone from llama_index.core import ( VectorStoreIndex, SimpleDirectoryReader, StorageContext, ) from llama_index.vector_stores.pinecone import PineconeVectorStore init pinecone pinecone.init(api_key=”", environment="") pinecone.create_index( "quickstart", dimension=1536, metric="euclidean", pod_type="p1" ) construct vector store and customize storage context storage_context = StorageContext.from_defaults( vector_store=PineconeVectorStore(pinecone.Index(“quickstart”)) ) Load documents and build index documents = SimpleDirectoryReader( “../../examples/data/paul_graham” ).load_data() index = VectorStoreIndex.from_documents( documents, storage_context=storage_context ) {% endhighlight %} other index guides vector store가 가장 흔한 indexing 기법이지만 그 이외에도 아래와 같이 다양한 기법들이 있습니다. other index guides W. other embedding module 기본적으로 llama에서 제공하는 embedding으로 동작이 되지만 다른 embedding을 사용하고 싶으면 아래를 참고하여 변경이 가능합니다. embedding module pipeline documents advance(1)와 nodes advance(1)까지 확인 이후 pipeline을 아래와 같이 도입 가능합니다. document node index pipeline

AI

/

NLP

/

llama index · 2024-03-12

Llamaindex nodes Advance(1)

AI

/

NLP

/

llama index · 2024-03-11

Llamaindex nodes

what is nodes 노드는 documents를 텍스트, 이미지 등등의 각 chunk로 나누는 것을 의미합니다. 이렇게 생성된 노드는 metadata정보와 관계도 정보가 포함되어 있습니다. how to use nodes(W. documents) 아래의 방식으로 node를 활용하기 위하여 documents를 사용할 수 있어야합니다. 아래의 링크를 참고해주세요. documents documents를 활용하여 간단하게 node를 사용하려면 다음과 같이 사용하면 됩니다. {% highlight python %} from llama_index.core.node_parser import SentenceSplitter parser = SentenceSplitter() nodes = parser.get_nodes_from_documents(documents) {% endhighlight %} how to use nodes(custom text) 아래의 방식으로 각각의 text를 수동으로 node를 만들어 줄 수도 있습니다.(고급) {% highlight python %} from llama_index.core.schema import TextNode, NodeRelationship, RelatedNodeInfo node1 = TextNode(text=”", id_="") node2 = TextNode(text="", id_="") set relationships node1.relationships[NodeRelationship.NEXT] = RelatedNodeInfo( node_id=node2.node_id ) node2.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo( node_id=node1.node_id ) nodes = [node1, node2] {% endhighlight %} 또한 아래와 같이 node간의 종속적 정보를 추가 할 수 있습니다. {% highlight python %} node2.relationships[NodeRelationship.PARENT] = RelatedNodeInfo( node_id=node1.node_id, metadata={“key”: “val”} ) {% endhighlight %} 노드는 다음의 방식으로 id를 직접 주입할 수 있습니다. 이러한 id 값은 다양한 역활을 할 수 있습니다. {% highlight python %} node.node_id = “My new node_id!” {% endhighlight %} Advance nodes advance(1)

AI

/

NLP

/

llama index · 2024-03-08

Llamaindex documents Advance(1)

documents loaders flat document documents는 다양한 형태를 가진 파일들을 불러오는데 사용이 될 수 있으나, 단순한 파일을 불러올 수도 있습니다. 단순한 파일을 불러올때는 아래와 같이 단순한 방식이 제공됩니다. {% highlight python %} from llama_index.readers.file import FlatReader from pathlib import Path md_docs = FlatReader().load_data(Path(“./test.md”)) {% endhighlight %} other document loader other document loader metadata extraction usage pattern 다음과 같이 LLM을 사용하여 metadata를 추출해낼 수 있습니다. {% highlight shell %} pip install llama-index-extractors-entity {% endhighlight %} {% highlight python %} import os OPENAI_API_TOKEN = “sk-“ os.environ[“OPENAI_API_KEY”] = OPENAI_API_TOKEN llm = OpenAI(temperature=0.1, model=”gpt-3.5-turbo”, max_tokens=512) from llama_index.core.extractors import ( TitleExtractor, QuestionsAnsweredExtractor, SummaryExtractor, KeywordExtractor, BaseExtractor, ) from llama_index.extractors.entity import EntityExtractor class CustomExtractor(BaseExtractor): def extract(self, nodes): metadata_list = [ { “custom”: ( node.metadata[“document_title”] + “\n” + node.metadata[“excerpt_keywords”] ) } for node in nodes ] return metadata_list title_extractor = TitleExtractor(nodes=5) qa_extractor = QuestionsAnsweredExtractor(questions=3) summary_extractor = SummaryExtractor(summaries=[“prev”, “self”,”next”]) keyword_extractor = KeywordExtractor(keywords=10, llm=llm), custom_extractor = CustomExtractor() entity_extractor = EntityExtractor( prediction_threshold=0.5, label_entities=False, # include the entity label in the metadata (can be erroneous) device=”cpu”, # set to “cuda” if you have a GPU ) {% endhighlight %} pipeline nodes advance(1)까지 확인 이후 pipeline을 아래와 같이 도입 가능합니다. document node pipeline

AI

/

NLP

/

llama index · 2024-03-07

Llamaindex documents

AI

/

NLP

/

llama index · 2024-03-06

Llamaindex intro

AI

/

NLP

/

llama index · 2024-03-05

Hugging face intro

How to start 우선 허깅페이스에 가입을 해야합니다. Hugging face 가입을 하고나면 아래와 같은 설명이 나옵니다. Authentication 홈페이지 가입이후 이메일의 인증을 해줘야하며, 인증을 완료하면 아래과 같이 organization을 설정할 수 있다. 이미 존재하는 organization에 가입하거나 직접 만들어주면 된다. 이메일 인증 이후 setting에서 Authentication에 접근하면 아래와 같이 세팅을 할 수 있다. 2FA 세팅에는 google에서 제공하는 Authentication 어플을 활용하여 진행이 가능하다. create personal repository 홈페이지에서 관리할 수 있지만 CLI를 통하여 아래와 같이 관리가 가능하다. 홈페이지 setting에서 Access Tokens에 접근하면 token을 생성할 수 있습니다. token은 읽기용 쓰기용 2가지로 나뉘어 진다. 서버에서 가져와서 활용할때는 read, 서버에 등록할때는 write를 활용하면 됩니다. {% highlight shell %} pip install huggingface_hub huggingface-cli login huggingface-cli repo create --type {model, dataset, space} {% endhighlight %} use personal repository 개인 레포지토리를 사용하려면 아래와 같이 가져와서 git과 같이 활용하면 됩니다. {% highlight shell %} git lfs install git clone https://huggingface.co// {% endhighlight %} use hugging face model 코드상으로 huggingface를 활용하려면 아래와 같은 폼을 활용하면 활용이 가능하다. 자세한 방법은 각각의 모델과 토크나이저를 업로드한 organization을 확인하면 됩니다. {% highlight shell %} from transformers import AutoModelForCausalLM, AutoTokenizer REPO_ID = “” FILENAME = “” model_id = f”{REPO_ID}/{FILENAME}” model = AutoModelForCausalLM.from_pretrained(model_id) tokenizer = AutoTokenizer.from_pretrained(model_id) {% endhighlight %}

AI

/

NLP

/

hugging face · 2024-03-04

Ollama intro

How to start 우선 ollama를 설치하여 진행해야하기 때문에 아래에서 OS에 맞는 ollama를 우선 설치해야 합니다. ollama를 설치하였다면 사용할 모델을 아래와 같이 받으면 됩니다. {% highlight shell %} ollama pull {% endhighlight %} 다운받을 수있는 모델은 다음 홈페이지에서 확인이 가능합니다. ollama check installed model 설치한 모델을 확인하려면 다음과 같이 확인이 가능합니다. {% highlight shell %} ollama list {% endhighlight %} check installed model info 설치한 모델의 정보를 확인하려면 다음과 같이 확인이 가능합니다. {% highlight shell %} ollama show {--license, --modelfile, --parameters, --system, --template} {% endhighlight %} copy installed model 설치한 모델을 복제하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama cp {% endhighlight %} run model in CLI 설치한 모델을 CLI에서 실행하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama run {% endhighlight %} remove installed model 설치한 모델을 삭제하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama rm {% endhighlight %}

AI

/

NLP

/

ollama · 2024-03-01

2. Sequence embedding

Seq2Seq 중심 단어와 주변 단어를 통한 예측 기반의 학습법 ELMO 주변 단어를 보고 중심 단어를 예측하는 방법 Transformer 중심 단어를 보고 주변 단어를 예측하는 방법(학습 횟수가 많음) GPT <>으로 단어를 구분하고 n-gram을 통하여 단어를 나눠서 학습한다 skip-gram과 유사한 학습법 sub word들을 학습해 유사한 단어학습이 가능 BERT 기존의 LSA(Latent Semantic Analysis)는 문서에서 단어의 빈도를 기준으로 차원축소를 하는 방법론 -> 단어 의미 유추에 약함

AI

/

NLP

/

basic · 2023-12-12

1. Word embedding

Word2Vec 중심 단어와 주변 단어를 통한 예측 기반의 학습법 유사어 구별이 힘듬 단어의 빈도수에 영향을 많이 받음 새로운 단어학습시 전체학습이 필요 사전의 크기가 학습시간에 영향이 큼 CBOW 주변 단어를 보고 중심 단어를 예측하는 방법 Skip-gram 중심 단어를 보고 주변 단어를 예측하는 방법(학습 횟수가 많음) FastText <>으로 단어를 구분하고 n-gram을 통하여 단어를 나눠서 학습한다 skip-gram과 유사한 학습법 sub word들을 학습해 유사한 단어학습이 가능 GloVe(Global Vectors for Word Representation) 기존의 LSA(Latent Semantic Analysis)는 문서에서 단어의 빈도를 기준으로 차원축소를 하는 방법론 -> 단어 의미 유추에 약함 새로운 방법을 제안함(단어의 유사도를 고려) 윈도우 기반 동시 등장 행렬 앞뒤로 등장한 단어들을 테이블화 하여 행렬로 만듬 동시 등장확률 해당 행의 전체값에서 해당하는 값을 나눈값 손실함수 동시 등장확률과 유사하게 나올 수 있게 함 konlpy gensim

AI

/

NLP

/

basic · 2023-12-11

5. Advance of deep learning

XAI explainable AI를 의미하며 Black box인 DL을 설명 가능하게 하는 기술을 의미한다. LIME Local Interpretable Model-Agnostic Explanations 예측하려는 값의 근처 데이터들을 해석 가능한 모델로 학습하여 분류기의 성능을 설명하는 기술 SHAP SHapley Additive exPlanations 머신러닝 설명기법으로 특성의 기여도를 계산하여 관측치를 설명하는 기술

AI

/

DL

/

basic · 2023-11-03

4. Models of deep learning

AI

/

DL

/

basic · 2023-11-02

3. Evaluation metrics of deep learning

mean_absolute_error(regression) mse라고 불리는 지표로 결과값과 예측값간의 차의 절대값 평균이다. {% highlight python %} from sklearn.metrics import mean_absolute_error mean_absolute_error(Y_test, pred_value) {% endhighlight %} mean_squared_error(regression) mse라고 불리는 지표로 가장 일반적으로 사용되는 값으로 결과값과 예측값간의 차의 제곱합의 절대값이다. {% highlight python %} from sklearn.metrics import mean_squared_error mean_squared_error(Y_test, pred_value) {% endhighlight %} accuracy_score(classification) 결과와 예측간의 정확도를 나타내는 지표이다. {% highlight python %} from sklearn.metrics import accuracy_score accuracy_score(Y_test, pred_value) {% endhighlight %} confusion_matrix(classification) 예측값과 결과값간의 값을 matrix로 나타낸값 {% highlight python %} from sklearn.metrics import confusion_matrix confusion_matrix(Y_test, pred_value) {% endhighlight %} classification_report(classification) {% highlight python %} from sklearn.metrics import classification_report classification_report(Y_test, pred_value) {% endhighlight %} precision -> 예측1(positive, type1) 정확도 recall -> 실제1(Type2) 정확도 F-1 Score precision, recall의 유사성 높으면 유사함(기하 평균) roc_auc_score(classification) {% highlight python %} from sklearn.metrics import roc_auc_score roc_auc_score(Y_test, pred_value, multi_class) {% endhighlight %} roc x축을 실제값이 1일때 예측값의 1의 비율, y축을 실제값이 0일때 예측값의 1의 비율로 하여 나타내지는 그래프를 의미한다. auc -> roc그래프에서 desity를 나타내고, 0.5~1의 값을 나타내며 높을수록 정확도가 높다 multi_class는 1대1 매칭은 ovo 1대 다 매칭은 ovr로 입력값을 받는다. silhouette_score(clustering) {% highlight python %} from sklearn.metrics import silhouette_score for i in range(): model = KMeans(n_cluster=i) model.fit() pred = model.predict() [].append(silhouette_score(, pred)) {% endhighlight %} 값이 높을 수록 효과가 좋은 결과

AI

/

DL

/

basic · 2023-11-01

2. EDA of deep learning

고속 옵티마이저 모멘텀 최적화 경사 하강법에 모멘텀을 추가한 형태(초기에는 느린데 모멘텀을 추가로 가져서 종단 속도까지 빠르게 도달함) {% highlight python %} optimizer = keras.optimizers.SGD(learning_rate=0.001, momentum=0.9) {% endhighlight %} 네스테로프 가속 경사 모멘텀에 미리 한 스탭 나아간 것을 추가하여 진동을 감소시킴 {% highlight python %} optimizer = keras.optimizers.SGD(learning_rate=0.001, momentum=0.9, nesterov=True) {% endhighlight %} 전이학습 {% highlight python %} .layers[:-1] -> 최종 층을 제외하고 추출 = keras.models.clone_model() .set_weights(.get_weights()) {% endhighlight %}

AI

/

DL

/

basic · 2023-10-31

1. Theory of deep learning

인공신경망 퍼셉트론(Perceptron) TLU(Threshold Logic Unit)이라고도 불리며 입력들에 대하여 출력을 구하는 유닛이다. 출력은 활성화 함수에 의하여 발생이 되며 heavyside, sgn과 같은 함수가 활용된다. 다중 퍼셉트론 하나의 층으로 구성이된 퍼셉트론은 XOR과 같은 문제를 해결할 수 없고 이를 해결하기 위해 2개 이상의 층으로 구성이된 퍼셉트론을 만드는것이다. 역전파(backpropagation) 다중 퍼셉트론의 학습법으로 효율적인 계산법은 경사 하강법을 사용할 수 있다. 역전파 기법의 서순은 아래와 같이 작용한다. 미니배치들로 1epoch가 될때까지 반복 각 미니배치들을 순차적으로 1개의 레이어씩 진행함 출력층에 도달(정방향 계산) 오차 측정 순처적으로 되돌아가며 가중치를 계산 경사 하강법으로 가중치를 변경 활성함수의 필요성 활성함수가 없으면 모든 층이 선형성을 가지기 때문에 비선형성을 가지는 복잡한 문제를 해결 할 수 없다. 심층신경망(DNN) 은닉층을 2개 이상 가지는 신경망(다중 퍼셉트론) 선형회귀 가중치, 편향을 가지고 단일 선형 또는 다중 선형 회귀 분석을 만들 수 있다. 가설 설정 제공 되는 데이터를 통하여 관계를 유추해 수식으로 예측해보는것을 가설이라 한다. 손실 함수 일반적으로 MSE와 같은 방법을 사용 경사 하강법 손실 함수를 최소화하기 위해 편미분을 취해 찾아가는 방법 epoch 순전파, 역전파를 1회 끝까지 완료하는 횟수 batch size 전체의 데이터에서 매개변수 업데이트에 사용할 데이터들의 집합 iterator 1 epoch를 위해 필요한 batch의 수 순환신경망(RNN) Recurrent Neural Network로 순차적(sequential) 학습의 한 종류이다. 과거의 학습에 Weight를 가하여 현재 학습에 반영하는 신경망 단점 중요한 정보가 오래될 경우 영향력을 크게 상실할 수 있다. 이를 보완하기 위해 LSTM(Long Short-Term Memory)와 간소화된 GRU(Gated Recurrent Unit)가 있다. 합성신경망(CNN) Convolutional Neural Network로 이미지 처리에 효과적인 학습법이다. 아래의 두가지 구조로 구성된다. Convolution Layer kernel/filter를 이용해서 데이터를 특성 맵(feature map)으로 만드는것 스트라이드(stride) kernel/filter가 특성 맵을 만들때 이동하는 거리를 의미한다. 패딩(padding) 특성맵의 크기 축소를 해소하는 방법으로 빈공간으로 채우는 방법 Polling Layer 특성 맵을 풀링 연산(max, average, …)을 통하여 다운 샘플링하는 것 그래프신경망(GNN) Graph Neural Network로 그래프 데이터를 활용하는 신경망이다. 비정형의 복잡한 형태로 인하여 분석이 힘들다. 가중치 초기화 Weight initialization은 학습 초기 가중치를 결정하는 방법으로 효율적이지 못한값을 제공할 경우 미분값의 소실, 발산이 생길 수 있다. 아래의 초기화 기법들은 이와 같은 문제를 효율적으로 다룰 수 있다. He ReLU와 같은 함수를 사용 ReLU 함수는 양수값에서 수렴하지 않으며 속도도 빠르지만 훈련도중 가중치가 음수를 가지게 되면 기울기가 0이 되는 Dying ReLU이슈가 있다. LeakyReLU는 위의 이슈를 해결하기 위하여 음수도 기울기를 가하는 방법이다. $LeakyReLU(z) = max(\alpha z, z)$ RReLU는 정해진 범위의 $\alpha$을 랜덤으로 선택하는것 PReLU는 $\alpha$가 학습하면서 결정이되며 데이터가 적으면 과적합 위험이 있다. ELU는 $z < 0$에서 $\alpha (e^z-1)$을 가지게되며 계산이 느리지만 학습력이 좋다. 글로럿 tanh, logistic, softmax와 같은 함수 또는 활성화 함수 사용 X 인풋과 아웃풋 노드 수의 평균에 의존적이다. 르쿤 SELU와 같은 함수를 사용 인풋의 노드 수에 의존적이다. 배치 정규화 가중치 초기화는 초기의 가중치를 통하여 이후의 안정성을 제공하지만 완전히 안정적이지는 않다. 그렇기 때문에 배치 정규화를 이용해서 은닉층 내부에서 안정화를 제공할 수 있다. 활성화 함수 전후에 연산을 추가하여 진행되며 배치 정규화를 진행하기 위해서는 입력의 평균과 표준 편차를 필요로 한다. 각 층의 입력의 값을 활용하기 때문에 테스트를 할때는 전체 훈련결과를 이용하여 정규화를 진행한다. 그래디언트 클리핑 그래디언트 폭주가 발생하지 않게 역전파에서 임계값을 초과하지 않게한다. 전이학습 transfer learning이라고도 하며 이전에 학습한 층을 재활용하는 것이다. 상위층의 경우 재사용시 다른 모델에 최적화 되어 있기때문에 하위층을 주로 활용한다.

AI

/

DL

/

basic · 2023-10-30

5. Advance of machine learning

gridSearchCV 하이퍼 파라미터를 다양하게 활용하여 최적의 값을 찾는 방법 {% highlight python %} from sklearn.model_selection import GridSearchCV param_grid = [ {‘’ : []}, {‘bootstrap’ : [False]} ] model = grid_search = GridSearchCV(model, param_grid, cv=5) grid_search.fit() grid_search.best_params_ grid_Search.best_estimator_ grid_Search.cv_results_ {% endhighlight %} best_params_ 최적의 파라미터 제공 best_estimator_ 최적의 파라미터 모형 제공 cv_results_ iter한 객체로 전체 하이퍼파라미터 별 평가 확인가능 Text Mining Process corpus 정의(수집) text cleaning(불용어 제거, 형태 통일) tokenization(분석 단위 결정) modeling visualization 다중공산성 correlation이 높은 것을 의미하고 선형 모델에서 다중공산성은 문제가 될수 있고 tree 모델에서는 크게 상관이 없다. 빼는것을 결정할때는 피어슨 상관계수를 사용 \[\tfrac{corr_{1,2}}{\rho_1 \rho_2}\] 추천시스템 사용자에게 추천정보를 제공하는 방법 contents based filtering 나의 프로필 정보를 가지고 추천하는 방식 collaborative filtering(충분한 정보에서 우세) 나의 평점 데이터를 가지고 추천하는 방식 item-based collaborative filtering 해당 사용자의 선호 item과 유사한 item 추천방식 user-based collaborative filtering 해당 사용자의 선호 item과 유사한 선호도를 가진 user의 item을 추천하는 방식 explicit data 평점이 명확하게 작성이 된 데이터 user-oriented-neighborhood model 평점을 기준으로 사용자간의 유사도를 확인해서 높은 평점을 가진 사용자의 추천을 추천 item-oriented-neighborhood model 평점을 기준으로 유사한 아이템을 사용자에게 추천하는 방식 implicit data 평점이 명확하지 않아 타겟을 소비한 횟수로 구성된 데이터 latent factor model 확인된 평점의 특성을 토대로 미확인 평점을 추론해내는 방법으로 사용자와 아이템간의 평점을 나타내는 행렬을 두개의 latent factor로 나누어 학습하는 matrix factorization 기법을 사용한다. matrix factorization $n$명의 사용자와 $i$개의 아이템이 존재할때 $n \times i$ 행렬을 임의의 factor($f$)개를 정하여 $f \times n$, $f \times i$의 행렬로 만드는것 ALS(alternating least squares) 구현예제 두가지 인풋을 가지는 2차행렬에서 하나의 인풋을 상수로 취급하고 계산하고 다른 인풋을 상수로 취급하고 반복하는 로직을 일컷는다. matrix factorization에 따라 사용자 행렬을 $X$ 아이템 행렬을 $Y$라고 하면 평점행렬과 원소는 아래와 같이 표현된다. \[R=XY^T \qquad r_{ni} = x_n^Ty_i\] 이것을 토대로 학습을 위한 loss function을 만들어야 하는데 이것은 아래와 같이 표현되며 $\lambda$는 과적합을 방지하기 위해 추가 됩니다. \[min_{x^{'},y^{'}}\sum_{n,i}(r_{ni}-x_n^Ty_i)^2 + \lambda(\sum_u||x_n||^2+\sum_i||y_i||^2)\] ALS에 따라 $y_i$를 상수로 취급하여 loss function의 최소값을 찾기 위하여 편미분을 취하여 $x_n$의 최소값을 찾아가면 \[-2\sum_i(r_{ni}-x_n^Ty_i)\times y_i+2\lambda x_n\] \[\lambda x_n = \sum_i(r_{ni}-x_n^Ty_i)\times y_i\] \[\lambda x_n = \sum_i(-x_n^Ty_i)\times y_i+\sum_i r_{ni}y_i\] $(-x_n^Ty_i)$이 스칼라 값이라서 전치행렬을 취해도 값이 같다. \[x_n(\lambda + \sum_i y_i \times y_i^T) = \sum_i r_{ni}y_i\] \[x_n(\lambda I + Y Y^T) = R_{n}Y\] \[x_n = R_{n}Y(Y Y^T + \lambda I)^{-1}\] 이와 같이 $x_n$가 최소가 되는 행렬을 찾았지만 이렇게 계산을 할 경우 implicit data의 문제에 봉착하게 된다. 이러한 missing value(미평가 점수)를 위하여 선호하는지 안하는지 알기위하여 $R_n$을 선호도 $p_{ni}$와 신뢰도 $c_{ni}$로 분할 한다. \[p_{ni} = {\left\{\begin{matrix} 1 \quad R_{ni} \;is \; known \\ \quad 0 \quad R_{ni} \;is \; unknown \end{matrix}\right.}\] \[c_{ni} = 1+ \alpha r_{ni}\] 이와같이 분할한 수식을 loss function의 편미분과 같이 다시 계산하면 \[x_n = C_{n}Y(Y Y^T + \lambda I)^{-1}\] 가 나오게 되며 ALS 로직을 사용할 수 있다.

AI

/

ML

/

basic · 2023-10-27

4. Models of machine learning

AI

/

ML

/

basic · 2023-10-26

3. Evaluation metrics of machine learning

mean_absolute_error(regression) mse라고 불리는 지표로 결과값과 예측값간의 차의 절대값 평균이다. {% highlight python %} from sklearn.metrics import mean_absolute_error mean_absolute_error(Y_test, pred_value) {% endhighlight %} mean_squared_error(regression) mse라고 불리는 지표로 가장 일반적으로 사용되는 값으로 결과값과 예측값간의 차의 제곱합의 절대값이다. {% highlight python %} from sklearn.metrics import mean_squared_error mean_squared_error(Y_test, pred_value) {% endhighlight %} accuracy_score(classification) 결과와 예측간의 정확도를 나타내는 지표이다. {% highlight python %} from sklearn.metrics import accuracy_score accuracy_score(Y_test, pred_value) {% endhighlight %} confusion_matrix(classification) 예측값과 결과값간의 값을 matrix로 나타낸값 {% highlight python %} from sklearn.metrics import confusion_matrix confusion_matrix(Y_test, pred_value) {% endhighlight %} classification_report(classification) {% highlight python %} from sklearn.metrics import classification_report classification_report(Y_test, pred_value) {% endhighlight %} precision -> 예측1(positive, type1) 정확도 recall -> 실제1(Type2) 정확도 F-1 Score precision, recall의 유사성 높으면 유사함(기하 평균) roc_auc_score(classification) {% highlight python %} from sklearn.metrics import roc_auc_score roc_auc_score(Y_test, pred_value, multi_class) {% endhighlight %} roc x축을 실제값이 0일때 예측값의 1의 비율(FPR), y축을 실제값이 1일때 예측값의 1의 비율(TPR)로 하여 나타내지는 그래프를 의미한다. auc -> roc그래프에서 desity를 나타내고, 0.5~1의 값을 나타내며 높을수록 정확도가 높다 multi_class는 1대1 매칭은 ovo 1대 다 매칭은 ovr로 입력값을 받는다. silhouette_score(clustering) {% highlight python %} from sklearn.metrics import silhouette_score for i in range(): model = KMeans(n_cluster=i) model.fit() pred = model.predict() [].append(silhouette_score(, pred)) {% endhighlight %} 값이 높을 수록 효과가 좋은 결과

AI

/

ML

/

basic · 2023-10-25

2. EDA of machine learning

ordinal encoder 어떠한 컬럼값이 object형일 경우 학습을 시키기 힘들기 때문에 값들을 0, 1, … 으로 넘버링하는 방법(높고 낮음의 연관성이 있을때) replace() {% highlight python %} data[] = data[].replace({"name": num}) {% endhighlight %} OrdinalEncoder {% highlight python %} from sklearn.preprocessing import OrdinalEncoder ohe = OrdinalEncoder() train_ = ohe.fit_transform(train([])) # 분류된 데이터가 도출됨 {% endhighlight %} factorize {% highlight python %} pd.factorize() {% endhighlight %} onehot encoder 어떠한 컬럼값이 object형일 경우 학습을 시키기 힘들기 때문에 값들을 0과 1로 이루어진 데이터로 변환하는 방법 train, test 카테고리 차이가 없을때 쉽게하는법 {% highlight python %} pd.get_dummies(data=[], columns=[], drop_first=False) {% endhighlight %} data는 참조가 되는 데이터들을 나타낸다. columns는 데이터중 onehotencoding을 하려는 컬럼값들을 나타낸다. drop_first는 encoding하여 분할되는 컬럼들중 첫번째를 넣을지 뺄것인지 정하는것으로 선택적이다. train, test 카테고리 차이가 있을때 진행하는법 {% highlight python %} from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(sparse=False) train_ = ohe.fit_transform(train([])) # 분류된 데이터가 도출됨 ohe.categories_ # 카테고리 값이 도출됨 {% endhighlight %} StandardScaler 평균이 0 분산이 1인 값으로 데이터를 표준화하는 작업으로 보통 정규분포의 경우에서 성능향상을 위해 사용이 된다.(outlier 영향 강함) {% highlight python %} from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df_scaled = scaler.fit_transform(df) {% endhighlight %} min max scaler 데이터를 0~1의 값으로 변환을 하게 되며 정규분포가 아닐경우 사용하게 된다. {% highlight python %} from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df_scaled = scaler.fit_transform(df) {% endhighlight %} robust scaler 해당하는 값에서 중앙값을뺀값을 IQR로 나누어 만들어지며, ourlier 영향이 적게 스케일링이 가능하다. {% highlight python %} from sklearn.preprocessing import RobustScaler {% endhighlight %} train/test data split 데이터가 학습및 학습결과 확인을 위하여 데이터를 분할해주는 작업이다. train_test_split {% highlight python %} from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split(X ,y, test_size=0.2, random_state=54) {% endhighlight %} random_state는 일종의 시드값으로 변화가없으면 계속 같은 값이 나온다. StratifiedShuffleSplit 특정 <data_>를 동일한 비율로 나누고 싶을때 사용 {% highlight python %} split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=54) for train_idx, test_idx in split.split(X, ): X_train = X[train_idx] X_test = X[test_idx] y_train = y[train_idx] y_test = y[test_idx] {% endhighlight %} random_state는 일종의 시드값으로 변화가없으면 계속 같은 값이 나온다. Kfold StratifiedKfold cross validation issue train/test로 나누어서 진행함에 있어서 보면 매번 결과가 뒤죽박죽으로 나올 수 있다. 이러한 이유는 train, test에 해당하는값이 치우쳐진 값으로 가질 수 있기 때문이며 이를 위해 아래와 같이 여러갯수로 분할하여 시행하는것이 더욱 정확하다고 볼 수있다. {% highlight python %} from sklearn.model_selection import KFold kf = KFold(n_splits=5, random_state=100) for train_index, test_index in kf.split(range(len(data))): {% endhighlight %}

AI

/

ML

/

basic · 2023-10-24

1. Theory of machine learning

Linear Regression 종속변수와 독립변수간에 관계를 예측하는 모델로 선형적 모델을 가지고 종속변수와 독립변수의 관계를 도출하는 방법이다. 변수가 증가함에 따라 시간 복잡도가 많이 증가한다. 일반적으로 아래의 정규방정식을 통하여 계산이 가능하지만 \[\theta = (X^TX)^{-1}X^Ty\] 역행렬이 존재하지 않거나 하는 경우 유사 역행렬인 \[\theta = X^+y\] 를 이용하여 계산을 하며 이는 sklearn에서 기본으로 제공이 된다.(np.linalg.pinv()를 통하여 직접 계산도 가능) Ridge Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다. $MSE(\theta)$에 L2 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다. \[J(\theta) = MSE(\theta) + \alpha \tfrac{1}{2}\sum_{i=1}^n\theta_i^2\] Lasso Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다.Ridge회기는 중요도가 낮은 변수를 규제하지만 Lasso는 0이 될수있다. $MSE(\theta)$에 L1 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다. \[J(\theta) = MSE(\theta) + \alpha \sum_{i=1}^n|\theta_i|\] Elastic Net Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다.Ridge, Lasso를 융합시킨 형태이다. $MSE(\theta)$에 L2 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다.(r=0에서 Ridge r=1에서 Lasso가 된다.) \[J(\theta) = MSE(\theta) + r\alpha \sum_{i=1}^n|\theta_i| + \tfrac{1-r}{2}\sum_{i=1}^n\theta_i^2\] Early Stopping Regression(규제형) 경사하강법과 같은 반복적 학습에서 과적합되기전에 멈추게 하는 방법 Gradient Descent 비용함수를 최소화하여 계산복잡도를 감소시킨 방법이다. 시간 및 정확도를 위하여 scaler를 통하여 특성을 유사하게 만들어야한다. $\eta$는 학습률을 의미한다. \[cost \, function := MSE(\theta) = \tfrac{(\hat{y}-y)^2}{m}\] \[\tfrac{\partial}{\partial\theta}MSE(\theta) = \tfrac{2X^T(X\theta-y)}{m}\] \[\theta^{next step} = \theta - \eta\tfrac{\partial}{\partial\theta}MSE(\theta)\] Batch Gradient Descent 전체 데이터셋의 에러를 통한 기울기로 한번만 모델의 파라미터를 업데이트하는 방법 장점 연산횟수가 적다. 전체 데이터셋을 활용하기 때문에 안정적으로 수렴한다. 단점 지역 최적화에 걸리기 쉽다. 스텝마다 학습량이 많아 시간이 오래걸린다. Stomatic Gradient Descent 매 스탭마다 무작위 샘플을 구하여 미분을 취하는 방법 장점 알고리즘이 빠르다. 단점 최적의 값을 구하기 힘들다. 샘플 데이터를 활용하기 때문에 불안정적으로 수렴한다. Mini-Batch Gradient Descent 임의의 작은 샘플 세트를 활용하여 기울기를 구하는 방법 장점 batch-size를 키우면 SGD보다 안정적이다. 단점 정해진 샘플의 사용으로 SGD보다 지역 최적화에 걸리기 쉽다. PolynomialFeatures 다항 회기방법으로 변수들을 이용해 고차항을 만드는 방법 n이 변수의 갯수, d가 차원일때 아래와 같은 수의 변수가 생성이된다. \[\tfrac{(n+d)!}{n!d!}\] Logistic Regression 종속변수와 독립변수간에 관계를 예측하는 모델로 linear regression과 다르게 이항, 다항과 같이 항을 기준으로 classification을 한다. odds 성공확률과 실패 확률의 비율 \[odds = \tfrac{p(y=1|x)}{1-p(y=1|x)}\] logit odds에 log를 취한 함수 \[logit(p) = log(\tfrac{p}{1-p})\] sigmoid function logit 함수의 입력과 출력을 바꾼함수 \[p(X) = \tfrac{1}{1+e^{-\beta X}}\] logistic function sigmoid 함수 만들어진 예측 모델 Logistic Regression은 $x$가 변할때 $y$가 1이 되는 경향성을 따지는 모델로서 아래와 같은 확률에서 시작된다. \[p(X) = Pr(y=1|X)\] 우리가 parameter Estimation을 통하여 구하려고 하는 sigmoid의 $\hat{\beta}$는 이상 적으로 2가지 경우로 나뉜다. $y=1$이라서 $\hat{Pr(y=1|X)}$이 1에 수렴하는 경우 $y=0$이라서 $1-\hat{Pr(y=1|X)}$이 1에 수렴하는 경우 1.의 경우 최대 확률은 $\prod_{s \, in \, y_i=1} p(x_i)$ 2.의 경우 최대 확률은 $\prod_{s \, in \, y_i=0} (1-p(x_i))$ 종합적인 최대 확률은 $L(\beta) = \prod_{s \, in \, y_i=1} p(x_i) \times \prod_{s \, in \, y_i=0} (1-p(x_i))$ 가 된다. 이 수식을 단순화 하면 아래의 수식이 된다. \[L(\beta) = \prod_s p(x_i)^{y_i} \times \prod_s (1-p(x_i))^{1-y_i}\] loss function을 활용해 최적의 함수를 찾아야하는 위의 수식은 미분에 있어서 쉽지 않다. 그래서 log를 이용한 log likelihood 함수를 만들고 음수를 취해주고 전체 샘플수로 나눠주면 loss function을 만들 수 있다. \[J(\beta) = -\tfrac{1}{n}(\sum_{i=1}^n y_i log(p(x_i)) \times \sum_{i=1}^n (1-y_i) log(1-p(x_i)))\] \[\tfrac{\partial}{\partial\beta_j}J(\beta) = \tfrac{1}{n}(\sum_{i=1}^n p(x^{(i)})-y^{(i)})x_j^{(i)}\] SoftMax Logistic Regression의 경우 binary classification의 방법을 위하여 고안이 되었으나 multinomial classificaion에 활용할 수 있게 하는 방법이 SoftMax 기법이다. 이는 도출된 경향성 점수를 $s(y_i) = \tfrac{e^{y_i}}{\sum e^y}$로 총합 1의 확률로 만들게된다. 이러한 확률을 이용하여 크로스 엔트로피(주어진 정답의 불확실성의 정도) 비용함수가 최소가 되게한다. Decision Tree Tree 구조로 형성된 의사결정 분류 알고리즘 데이터의 회전성에 취약하여 PCA(주성분 분석, 차원축소)를 사용하면 좋다 CART(Classification And Regression Tree) tree가 subset을 나누는데 있어 gini가 작은 subset을 만드는 방법으로 greedy algorithm이다. loss function은 아래와 같다. \[J = \tfrac{m_{left}}{m}G_{left}+\tfrac{m_{right}}{m}G_{right}\] Naive Bayes 특성들 사이의 독립을 가정하는 베이즈 정리를 이용한 확률 분류기 Bayes Theorem 어떠한 기존의 확률을 토대로 새로운 데이터의 확률을 구하는 방법 \[P(c\|x)=\tfrac{P(x\|c)P(c)}{P(x)}\] elements $P(c|x)$ posterior probabillity $P(x)$ predictor prior probabillity 어떠한 기존의 발생 확률 $P(c)$ class prior probabillity 어떠한 특성을 가질 확률 $P(x|c)$ likelihood 특성에서의 발생이 될 확률 Support Vector Machine(SVM)(SVC,SVR) 카테고리들이 있을때 데이터들의 사상된 공간의 경계중 가장 큰 너비를 가진 경계를 찾는 방법 (복잡, 작거나 중간 데이터셋에 적합, scaler를 하면 효율 증가) (SVC는 kernel을 통해 PolynoialFeature없이도 고차원 적용가능, 실제로 변수가 만들어지지 않아 속도빠름) margin 서로 다른 두가지 클래스의 데이터에서 어떠한 선으로 구분을 할경우 해당 선의 너비를 의미한다. support vectors margin에 해당하는 위치에 놓여있는 elements를 의미한다. RBF(Radial Basis Fuction) Kernel 방사형 기저 함수라 불리며 비선형 데이터에서 차원을 높여서 margin을 설계하는 방법 Clustering 흩어져있는 원소들을 군집화하여 유사한 데이터끼리 묶는 방식으로 하는 비지도학습 K Nearest Neighbors(KNN) 새로운 데이터를 입력받을때 가까운 데이터들의 분포에 따라 통계적으로 분류를 하는 알고리즘 K means 임의의 centroid를 지정후 근접합 데이터를 군집화 한다음 centroid를 재설정하는것을 반복하여 군집을 구하는 방법(변수들의 스케일링을 하면 효과가 좋다) DB Scan 밀도 기반 군집화 기법으로 범위내에 있는 샘플들의 갯수가 군집화가 되는 기준이다. 가우시안 혼합 모델(GMM) Gaussian Mixture Model은 분류가될 집합이 가우시안 분포로 되어있다고 가정하여 클러스터를 구성하는 확률 모델이다. 흩어져있는 원소들을 군집화하여 유사한 데이터끼리 묶는 방식으로 하는 비지도학습 Bagging VS Boosting bagging 분산을 감소시키는 방법으로 복원 추출을 통해 n개의 샘플을 만드는 boostraping을 통해 나온 샘플을 학습시켜서 선형 결합한것 boosting 편항을 감소시키는 방법으로 weak learner를 생성해서 구한 error를 토대로 가중치를 가해 error를 줄이는 방법이다. Decision Tree ensemble ensemble 우수한 모델들에서 나온 결과를 선형적으로 결합하여 성능을 향상하는 방법 Random Forest bagging을 사용한 알고리즘으로 모든 변수를 기반으로 Tree 생성 Extra Trees bagging을 사용하지 않는 random forest 알고리즘 AdaBoost boosting을 사용하여 샘플의 가중치를 더해 순차적 학습을 하는 알고리즘 Decision Tree Gradient Boosting Gradient Boosting은 미분을 통해 Residual을 줄이는 방향으로 weak learner들을 결합하는 방법(과적합 이슈의 발생) Extreme Gradient Boosting(XGB) Regularization과 다양한 loss function을 지원하여 과적합을 감소시킨 방법 Light Gradient Boosting histogram-based/GOSS/EFB와 같은 알고리즘으로 학습데이터를 감소시켜 속도를 향상시킨 방법 GBM은 Level-wise한데 LGBM은 Leaf-wise해서 시간은 적게 걸려도 깊은 트리형으로 문제없이 작업한다. GOSS(Gradient-based One-Side Sampling)으로 infomation gain을 계산할때 기울기(가중치)가 작은 변수에 승수 상수로 데이터를 증폭시킴 (데이터가 적으면 과적합 위험) Categorical Gradient Boosting 범주형 변수를 위한 알고리즘으로 one-hot encoding사용시 증폭되는 메모리 이슈를 보완하였음 (oblivious Decision Tree, Feature Combination) Natural Gradient Boosting 각 예측값에 대한 신뢰도를 도출해주는 알고리즘으로 시간이 오래걸리는 단점이 있음 차원축소 대부분의 데이터는 고차원으로 구성이 되어있어도 가까이에 있는 경향이 많아 저차원 공간으로 투영(projection)과 같은 차원축소 기법을 통해 해결할 수 있다. 매니폴트 고차원에서 휘어져있는 형태로 고차원에서 가까워 보이지만 실제로는 멀리있는 데이터를 효과적으로 차원 축소 하는 방법 주성분 분석(PCA) Principal Component Analysis는 보편적인 차원축소 기법으로 분포도를 최대한 유지하는 방향으로 차원을 축소하는 방법이다.(평균이 0인 StandardScaler가 필요하다, sklearn은 자체 지원) sklearn은 explained_variance_ratio를 통하여 축소한 차원에서 얼마나 분산의 손실이 발생했는지 알 수 있다. 특잇값 분해(SVD) Singular Value Decomposition은 주성분을 찾는 방법으로 $m \times n$인 행렬 $A_1$에 대한 특잇값 분해는 $U_1\sum_1V_1^T$이다. 이는 유사역행렬을 구하는 방법과 유사하지만 유사역행렬의 $\sum$은 $k \times k$로 변동성이 있지만 SVD는 $m \times n$이다.(thin SVD와 같이 축소기법을 사용하면 크기가 감소하기도 한다.) SVD를 통하여 구한 $V$의 각 열을 순서대로 $c_1, c_2, …$로 주성분의 축을 구할 수 있다. $c_1, c_2, …$의 갯수를 통하여 투영하려는 차원을 정할 수 있다. \[X_{d-proj} = XW_d\] 지역선형임베딩(LLE) Locally Linear Embedding은 투영을 하지않고 매니폴드를 활용하는 기법이다. 이웃 원소와의 선형성을 측정하여 국부적 관계가 보존되는 저차원을 표현함 t-SNE 비슷한 샘플과 비슷하지 않은샘플로 구분하여 차원을 축소하는 방법

AI

/

ML

/

basic · 2023-10-23

Dspy intro

How to start {% highlight shell %} from transformers import AutoModelForCausalLM, AutoTokenizer {% endhighlight %}

AI

/

NLP

/

dspy · 2023-04-02

WTMO-dev

Contact

AI