c++ setting

How to set c++ c++를 설정하는 방법은 다음과 같습니다. Window wsl을 활용하여 wsl상에서 linux를 참고하여 설정을 하거나 MinGW을 설치하여 직접 사용할 수 있습니다. MinGW에서 최신버전을 설치합니다. 환경 변수 설정 {% highlight shell %} [System.Environment]::GetEnvironmentVariable(“PATH”) # mingw64가 있는지 확인 [System.Environment]::SetEnvironmentVariable(“PATH”, $env:Path + “;C:\mingw64\bin”) # path 설정 {% endhighlight %} IDE 세팅은 각각의 IDE의 세팅을 사용하면 됩니다. Mac mac의 경우 세팅이 쉽습니다. {% highlight shell %} xcode-select –install {% endhighlight %} IDE 세팅은 각각의 IDE의 세팅을 사용하면 됩니다. Linux linux의 경우에도 세팅이 쉽습니다. {% highlight shell %} gcc -v # 설치 확인 sudo apt-get update # apt update sudo apt-get install build-essential gdb # 설치 {% endhighlight %} IDE 세팅은 각각의 IDE의 세팅을 사용하면 됩니다.

C++

/

basic · 2024-04-11

c++ intro

types 다음은 c++에서 사용되는 자료형들을 나타냅니다. 자료형은 기본자료형과 사용자 정의 자료형이 있습니다. 사용법은 둘다 같으나 최적화가 조금 다릅니다. 아래는 기본적인 자료형을 나타내는 법과 자료형에서 사용되는 키워드를 나타냅니다. {% highlight c++ %} bool b; // boolean 자료형 char c; // character 자료형 int n; // integer 자료형 double d; // double-precision floating point 자료형 {% endhighlight %} extern extern을 키워드로 사용한 자료형은 전역변수로 사용됩니다.(cpp, cpp간의 공유 가능) static static 키워드로 사용한 자료형은 객체들끼리 공유하며 사용됩니다.(cpp간의 공유 불가) const const를 키워드로 사용한 자료형은 값을 변경할 수 없는 변수로 사용됩니다. volatile volatile를 키워드로 사용한 자료형은 값을 가변 변수로 사용됩니다. register register를 키워드로 사용한 자료형 cpu의 register에 저장 요청하여 빠르게 동작하는 변수로 사용됩니다. constexpr constexpr를 키워드로 사용한 자료형은 compile시에 값을 결정하는 변수입니다. 복잡하거나 변경이 될 수 있는 경우 무시되거나 오류가 생길 수 있습니다. primitive data types 최적화 되어 있는 기본 자료형은 아래와 같습니다. {% highlight c++ %} bool b; // boolean 1byte char c; // character 1byte(ASCII CODE) wchar_t c; // character 4byte(UTF-8 CODE) int n; // integer 4byte long n; // integer 8byte double d; // double-precision floating point 8byte float f; // precision floating point 4byte void; // null {% endhighlight %} user defined types 사용자 정의 자료형은 다음과 같이 있으며, 또한 아래와 같이 선언하여 생성할 수도 있습니다. {% highlight c++ %} enum class COLOR { RED, GREEN, BLUE }; class MyClassType { public: MyClass() = default; ~MyClass() = default; int nID_; }; struct MyStructType { int nNumber; std::string strName; }; {% endhighlight %} type alias 타입은 다음과 같이 별칭을 정하여 사용할 수 있습니다. {% highlight c++ %} typedef unsigned int uint; using uchar = unsigned char; {% endhighlight %} type change 타입을 컴파일 할때 변경하는 법은 아래와 같이 있습니다. {% highlight c++ %} auto n = 10; // 컴파일시 자료형 결정 decltype(n) d = 3; // 자료형 참조하여 자료형 결정 {% endhighlight %} {% highlight c++ %} {% endhighlight %} {% highlight c++ %} {% endhighlight %}

C++

/

basic · 2024-04-10

c++ intro

how to install c++ c++을 사용하기 위하여 IDE는 VSC를 설치하면 됩니다. 하지만 compile을 위하여 추가적으로 설치가 필요한 요인들이 있습니다. 이는 아래를 참고하여 설정하여 주세요. setting default form 아래는 가장 기본적인 c++의 형태를 나타냅니다. {% highlight c++ %} #include #include using std::cout; // namespace 요약 using std::endl; int main(int argc, char *argv[]) { std::cout « “Hello, world!” « std::endl; return EXIT_SUCCESS; // 0과 같은 값을 반환 } {% endhighlight %} compile 아래는 c++을 동작하기 위하여 compile 하는 방식입니다. 아래의 방식 이외에도 IDE에서 구동하여 확인 할 수 있습니다. Debug mode {% highlight shell %} g++ -Wall -W -m64 –save-temps -std=c++2a -g -D_DEBUG -o .cpp {% endhighlight %} Release mode {% highlight shell %} g++ -Wall -W -m64 –save-temps -std=c++2a -O2 -o .cpp {% endhighlight %} W. MAKE file 아래와 같이 make file을 만들어서 명령어로 동작할 수 있습니다. {% highlight shell %} SHELL=/bin/sh MAKE=make -f Makefile.gcc.linux.x86_64.5.4.0 MAKEINSTALL=$(MAKE) install MAKECLEAN=$(MAKE) clean MAKEUNINSTALL=$(MAKE) uninstall CXX = g++ CC = gcc SUBS = lib \ bin all: -for c in $(SUBS); do echo “=== $c =="; (cd$c; $(MAKE) “CXX=$(CXX)” “CC=$(CC)”) done clean: -for c in $(SUBS); do echo “=== $c =="; (cd$c; $(MAKECLEAN) “CXX=$(CXX)” “CC=$(CC)”) done install: -for c in $(SUBS); do echo “=== $c =="; (cd$c; $(MAKEINSTALL) “CXX=$(CXX)” “CC=$(CC)”) done uninstall: -for c in $(SUBS); do echo “=== $c =="; (cd$c; $(MAKEUNINSTALL) “CXX=$(CXX)” “CC=$(CC)”) done {% endhighlight %} type of JAVA link

C++

/

basic · 2024-04-10

JAVA advance

Package Package는 연관성이 있거나 유사한 class들을 하나의 집단으로 묶는 방법입니다. 같은 Package 내에서는 import 없이 사용이 가능합니다. 하지만 sub package의 경우에는 import가 필요합니다. access modifier 접근 제어자는 변수나 메서드의 권한 설정을 하는 키워드 입니다. private < default < protected < public의 순서로 권한이 약해집니다. private 클래스에서만 사용가능한 가장 보안적인 권한입니다. default 가장 기본적인 권한으로 access modifier가 없으면 적용됩니다. 동일한 package 내에서 사용이 가능합니다. protected 동일한 package 내에서 또는 상속받은 class에서 사용이 가능합니다. public 자유롭게 사용가능한 권한입니다. static 클래스간의 공유가 필요한 인자의 경우 static을 사용합니다. 이는 메모리를 줄일 수 있으나 무분별한 사용은 인스턴스간의 간섭을 유발할 수 있습니다. static method static을 method에서 사용할 경우 인스턴스가 아니더라도 클래스인 상태에서 method를 직접적으로 사용이 가능합니다. 이는 모든 인스턴스에 공유됩니다. singleton pattern static의 개념을 확장하면 singleton pattern으로 사용이 가능합니다. 이 방식은 메모리낭비를 줄이며, 하나의 객체로 유지되어야하는 디자인 패턴에서 유용합니다. 아래는 singleton pattern을 만드는 방식입니다. {% highlight java %} class Singleton { private static Singleton one; private Singleton() { } public static Singleton getInstance() { if(one==null) { one = new Singleton(); } return one; } } Singleton singleton = Singleton.getInstance(); {% endhighlight %} exception 코드를 구성하다보면 다양한 예외 케이스들이 생길 수 있습니다. 그에 따라서 예외 처리를 핸들링 할 수 있어야합니다. 다음은 try except문을 활용하여 기본적인 exception 구조를 만드는 방법입니다. 이러한 구조를 통하여 transaction이 관리될 수 있습니다. {% highlight java %} try { c = 4 / 0; } catch(ArithmeticException e) { c = -1; // 예외가 발생하여 이 문장이 수행된다. } finally { System.out.println(“end”) } {% endhighlight %} {% highlight java %} public void sayNick(String nick) throws ArithmeticException { if(“a” == “b”) { throw new ArithmeticException(); } System.out.println(“hi”); } {% endhighlight %} thread 프로그램이 동작하는 process에서 다중업무를 동작하는 방법을 threading이라고 합니다. 아래의 방식은 thread를 사용할 수 있는 방법을 나타냅니다. {% highlight java %} public class Sample extends Thread { public void run() { // Thread 를 상속하면 run 메서드를 구현해야 한다. System.out.println(“thread run.”); } public static void main(String[] args) { Sample sample = new Sample(); sample.start(); // start()로 쓰레드를 실행 sample.join(); // 쓰레드가 종료될때까지 대기 } } {% endhighlight %} 위의 방식은 가장기본적인 방식이며, 확장성을 위하여 interface를 사용하는 방식을 권장합니다. {% highlight java %} public class Sample implements Runnable { int seq; public Sample(int seq) { this.seq = seq; } public void run() { System.out.println(this.seq+" thread start."); try { Thread.sleep(1000); }catch(Exception e) { } System.out.println(this.seq+" thread end."); } public void main() { Thread t = new Thread(new Sample(i)); } } {% endhighlight %} functional style lambda function java에서 이제 lambda를 지원하고 있습니다. 아래는 그 예시이며, 주의할 점은 interface에 2개이상의 method를 허용하지 않습니다. {% highlight java %} @FunctionalInterface interface Calculator { int sum(int a, int b); } public class Sample { public static void main(String[] args) { Calculator mc = (int a, int b) -> a +b; // 람다코드 int result = mc.sum(3, 4); } } {% endhighlight %} stream streaming과 같은것으로 오해할 수 있지만, stream은 말그대로 서순적인 흐름을 의미합니다. 아래는 stream을 사용하는 방법이며, 이와 같이 복잡한 변환을 가시성 있게 정리 할 수 있습니다. {% highlight java %} int[] data = {5, 6, 4, 2, 3, 1, 1, 2, 2, 4, 8}; int[] result = Arrays.stream(data) // IntStream을 생성한다. .boxed() // IntStream을 Stream로 변경한다. .filter((a) -> a % 2 == 0) // 짝수만 뽑아낸다. .distinct() // 중복을 제거한다. .sorted(Comparator.reverseOrder()) // 역순으로 정렬한다. .mapToInt(Integer::intValue) // Stream를 IntStream으로 변경한다. .toArray() // int[] 배열로 반환한다. ; {% endhighlight %}

JAVA

/

basic · 2024-04-09

JAVA io

input, output of JAVA 자바는 다양한 입출력 방식이 있습니다. console io 다음은 console을 활용한 기본적인 io입니다. {% highlight java %} System.out.println(“text”); // text\n 출력 System.out.print(“text”); // text 출력 import java.io.InputStream; InputStream inputData = System.in; // console 입력 선언 byte[] a = new byte[10]; // 입력 size 설정 a = in.read(); // console 입력 받기(askii code) import java.io.InputStreamReader; InputStream in = System.in; // console 입력 선언 InputStreamReader reader = new InputStreamReader(in); // streaming 설정 char[] a = new char[3]; // 입력 size 설정 reader.read(a); // console 입력 받기 import java.io.BufferedReader; InputStream in = System.in; // console 입력 선언 InputStreamReader reader = new InputStreamReader(in); // streaming 설정 BufferedReader br = new BufferedReader(reader); // 입력 size free 설정 String a = br.readLine(); // console 입력 받기 import java.util.Scanner; Scanner sc = new Scanner(System.in); System.out.println(sc.next()); {% endhighlight %} file io 다음은 file을 활용한 io의 예시입니다. 다양한 방법이 있으며 필요한 방법을 활용하면 됩니다. {% highlight java %} import java.io.FileOutputStream; FileOutputStream output = new FileOutputStream(“c:/out.txt”); output.close(); import java.io.FileOutputStream; String data = “Hello world.\r\n”; output.write(data.getBytes()); output.close(); import java.io.FileWriter; FileWriter fw = new FileWriter(“c:/out.txt”); String data = “Hello world.\r\n”; fw.write(data); fw.close(); FileWriter fw = new FileWriter(“c:/out.txt”, true); // 파일을 추가 모드로 연다. String data = “Hello world.\r\n”; fw.write(data); fw.close(); import java.io.PrintWriter; PrintWriter pw = new PrintWriter(“c:/out.txt”); String data = “Hello world.\r\n”; pw.println(data); pw.close(); PrintWriter pw = new PrintWriter(new FileWriter(“c:/out.txt”, true)); String data = “Hello world.\r\n”; pw.println(data); pw.close(); {% endhighlight %} {% highlight java %} {% endhighlight %}

JAVA

/

basic · 2024-04-08

JAVA class

class of JAVA 객체 지향으로 구조를 사용할 수 있는 class는 JAVA의 큰 특징중 하나입니다. 클래스로 부터 인스턴스를 만들게 되는데 이것을 모두 객체라고 명칭합니다. 하나의 클래스 파일은 하나의 public class가 필요하며, 파일명과 동일한 명칭을 가져야합니다. method method는 클래스 내부에 선언된 함수들을 칭하며 다음과 같습니다. {% highlight java %} class Animal { String name; public void setName(String name) { // method this.name = name; } } {% endhighlight %} method는 class의 변수를 this를 이용하여 접근할 수 있습니다. 하지만 static method의 경우 class 명을 사용해야 접근이 되며, 변수 또한 static으로 선언되어야 합니다. 이렇게 선언된 변수는 모든 인스턴스가 공유하게 됩니다. inheritance 상속은 class가 가지는 큰 장점중 하나로 다음과 같이 사용할 수 있습니다. 상속을 받게되면 부모의 method를 모두 사용 가능하며, 부모는 자식의 method를 사용할 수 없습니다. override를 통하여 자식은 부모의 method를 재선언 할 수도 있습니다. {% highlight java %} class Dog extends Animal, Mammalia { // Animal, Mammalia 클래스를 상속한다. } {% endhighlight %} constructor 인스턴스가 생성될때 초기화시키는것으로 생성자라고 불립니다. 이것은 class와 동일한 명칭으로 선언을 해주어야 하며, overloading을 통하여 재선언도 가능합니다. {% highlight java %} class CalculatorEx { int a; public CalculatorEx() { // default constructor a = 10; } public CalculatorEx(int num1) { // constructor overloading a = num1; } } public class ConstructorEx04 { public static void main(String[] args) { CalculatorEx cc = new CalculatorEx(); // default constructor CalculatorEx cc = new CalculatorEx(0); // constructor overloading } } {% endhighlight %} interface 인터페이스는 class간의 상속에서 간접적으로 사용할 수 있는 요인을 간접적으로 사용하기 위한 방법입니다. 이는 더욱 자유로운 확장성을 가질 수 있게 됩니다. {% highlight java %} interface Predator { // 먹이를 종류를 interface로 선언 String getFood(); default void printFood() { // default method로 class에서 선언없이 활용 가능 System.out.printf("my food is %s\n", getFood()); } } class Tiger extends Animal implements Predator { public String getFood() { // interface 활용 return "apple"; } } class ZooKeeper { void feed(Predator predator) { // 먹이를 주는 행위를 선언 System.out.println("feed "+predator.getFood()); } } {% endhighlight %} abstract abstract는 interface와 class를 둘다 가능한 형태의 클래스입니다. {% highlight java %} abstract class Predator extends Animal { abstract String getFood(); void printFood() { System.out.printf("my food is %s\n", getFood()); } } class Tiger extends Animal implements Predator { public String getFood() { return "apple"; } } class ZooKeeper { void feed(Predator predator) { System.out.println("feed "+predator.getFood()); } } {% endhighlight %}

JAVA

/

basic · 2024-04-05

JAVA control

control of JAVA 자바에는 제어문이 있습니다. if else 조건에 따른 수행을 나타냅니다. 기본적인 구조는 아래와 같습니다. {% highlight java %} if () { } else if () { } else { } {% endhighlight %} 삼항연산자로는 아래와 같이 활용가능합니다. {% highlight java %} () ? () : () {% endhighlight %} switch case 조건에 따른 수행을 나타냅니다. 기본적인 구조는 아래와 같습니다. 각 case는 독립적으로 끝나지 않기때문에 break가 없으면 case들을 통합적으로 사용 가능합니다. {% highlight java %} switch(입력변수) { case 입력값1: break; case 입력값2: break; default: break; } {% endhighlight %} while 조건에 따른 수행을 나타냅니다. 기본적인 구조는 아래와 같습니다. 조건에 따라 무한으로 작동될 수 있어서 탈출 할 수 있게 구조하면 좋습니다. break, continue를 사용할 수 있습니다. {% highlight java %} while () { ; } {% endhighlight %} for 조건에 따른 수행을 나타냅니다. 기본적인 구조는 아래와 같습니다. 조건에 따라 무한으로 작동될 수 있어서 탈출 할 수 있게 구조하면 좋습니다. break, continue를 사용할 수 있습니다. {% highlight java %} for (; ; ) { } {% endhighlight %} {% highlight java %} for () { } {% endhighlight %} condition(and or not) &&, ||, ! 순서대로 and, or, not을 나타냅니다.

JAVA

/

basic · 2024-04-04

JAVA types

JAVA

/

basic · 2024-04-03

JAVA setting

How to set JAVA JAVA를 설정하는 방법은 다음과 같습니다. Window 우선 JAVA가 설치되었는지 확인을 위하여 powershell에서 다음을 입력합니다. {% highlight shell %} java -version # java 버전 확인 {% endhighlight %} 위의 설정확인 이후에 설정이 안되어 있는 파트를 아래에서 설치 밑 설정하면 됩니다. java download JAVA 환경설정을 위하여 powershell에서 다음을 입력합니다. 경로의 경우 다운 받으면서 설치한 위치를 입력하면 됩니다. {% highlight shell %} System.Environment::SetEnvironmentVariable(“JAVA_HOME”, “") # ex) C:/Program Files/Java/jdk-17 System.Environment::SetEnvironmentVariable(“PATH”, $env:Path + “;%JAVA_HOME%\bin”) # path 설정 {% endhighlight %} Mac 우선 JAVA가 설치되었는지 확인을 위하여 terminal에서 다음을 입력합니다. {% highlight shell %} java -version # java 버전 확인 which java # java 설치 위치 확인 {% endhighlight %} java download 설치 이후 또는 동작하다가 경로의 문제로 동작이 안될 수 있습니다. 그럴 경우에 path를 설정해주면 됩니다. {% highlight shell %} vi ~/.zsh_profile # zsh_profile 열기, 아래 내용 추가 후 저장 JAVA_HOME= # ex) /Library/Java/JavaVirtualMachines/jdk-11.jdk/Contents/Home PATH=$PATH:$JAVA_HOME/bin export JAVA_HOME export PATH source ~/.zsh_profile # zsh_profile 적용 {% endhighlight %} Linux 우선 JAVA가 설치되었는지 확인을 위하여 terminal에서 다음을 입력합니다. {% highlight shell %} java -version # java 버전 확인 which java # java 설치 위치 확인 {% endhighlight %} 설치가 안되어 있으면 아래의 방식으로 설정해주면 됩니다. {% highlight shell %} sudo yum list | grep jdk # 설치 가능한 jdk 확인 sudo yum install java-1.8.0-openjdk # 설치하고자 하는 버전 설치 which java # 설치한 위치 확인 readlink -f # 위에서 확인한 위치의 정확한 위치 확인 cd etc/ vim profile export JAVA_HOME= # ex) /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.372.b07-1.el7_9.x86_64/jre/ export PATH=$JAVA_HOME/bin:$PATH export CLASS_PATH=$JAVA_HOME/lib:$CLASS_PATH source /etc/profile # 작성 옵션 적용 reboot # reboot {% endhighlight %}

JAVA

/

basic · 2024-04-02

JAVA intro

What is JAVA(W. setting) JAVA의 강력한 장점은 아래와 같습니다. 객체 지향형 언어 오픈소스 프로그래밍 언어 인터프리터 언어 높은 점유율 안전성이 높다 JAVA가 설치되어 있지 않으면 아래를 참고하여 설치하면 됩니다. setting JAVA로 개발을 위한 IDE인 eclipse의 경우 아래를 참고하여 설치하면 됩니다. eclipse install Let’s start JAVA JAVA는 package > class를 가장 기본적인 구조로 가집니다. 그래서 package가 존재하고 해당하는 package 내부에 존재하는 class들을 특별한 import 없이 활용이 가능합니다. 다음은 class의 가장 기본적인 형태입니다. 하나의 클래스 파일에는 여러개의 클래스가 존재할 수 있으나 public 클래스는 하나만 허용 됩니다. 또한 해당명칭은 파일명과 같아야합니다. method의 경우에는 main을 기본으로 합니다. method의 성격에 따라 public|private|protected 을 지정해주게 되며, 필요에 따라 없을 수 있습니다. static 키워드의 경우에는 클래스메소드로 사용 여부이며, 있을 수도 없을 수 있습니다. void의 위치에는 반환타입을 나타내며, 필수 인자입니다. {% highlight java %} public class ClassName { /* method block */ [public|private|protected] [static] void methodName(String[] args) { } } {% endhighlight %} type of JAVA link control of JAVA link class of JAVA link input, output of JAVA link advance of JAVA link

JAVA

/

basic · 2024-04-01

CV

Young Jin Go Developer / MLOps 저는 다양한 개발 경험과 AI 기술을 겸비한 개발자로서, 소통과 협업의 중요성을 깊이 인식하고 있습니다. 가치 있는 것을 만드는 것에 대한 열정을 가지고 있으며, 빠르게 변화하는 환경 속에서 지속적인 학습을 통해 새로운 기술을 습득하고 적용하고자 합니다. 최근 AI 및 MLOps 관련 경험을 쌓으며, 보다 다양한 가치를 창출할 수 있는 개발자로 성장하고 있습니다. 경험을 기반으로 더욱 다양한 가치를 이루어 내고 싶습니다. : 서울 광진구 화양동 : wtmo_dev@naver.com : +82 10 2363 1941 : gitwtmo : gitblog Main Project 2024.02.14 ~ 2024.10.31 사용자 친화적인 챗봇 만들기 (메인 개발자) 개요 Slack Bot을 활용하여 학생들이 강의 중 편리하게 Q&A를 할 수 있도록 지원하는 시스템 개발 주요 업무 FastAPI 및 MongoDB의 적용을 위하여 개발에 사용될 기반 코어의 유기적 오류점 체크 기반이 될 코어 코드 구조 제작 업무 결과 학생들의 참여도 증가로 중도 이탈율 25% 감소, 기존대비 학생들의 결과물 완성도 향상 2023.12.26 ~ 2024.02.08 YOLOv8 성능 향상을 통한 도로 위 사고 방지 (메인 개발자) 개요 자율주행 차량의 도로 안전을 위한 로드마크 탐지 AI 개발 주요 업무 YOLOv8 모델 분석 및 성능 최적화 업무 결과 CBAM(Attention) 기법을 적용하여 탐지 성능 3% 향상 2023.11.07 ~ 2023.12.06 에너지 소비, 생산량 예측 AI 제작 (메인 개발자) 개요 이미지로 구성된 무거운 기상 데이터를 활용한 에너지 소모 및 생산량 예측 모델 개발 주요 업무 수치화된 이미지 데이터를 고차원의 정보로 활용할 방법 모색 LSTM과 CNN을 결합하여 효율적인 데이터 분석 방식 도입 업무 결과 1시간 이상 걸리던 분석 시간을 5분 이내로 대폭 감소시켜 박사님이 실질적 도입을 연구중 2022.10.01 ~ 2022.12.20 장루 환자 관리 프로세스 개발 (개발 지원) 개요 장루 환자를 위한 디바이스 모듈과 함께 개발된 모바일 앱의 기술 부족해소 주요 업무 기존 모바일 앱의 모듈이 개발한 기기의 블루투스 모듈과 호환문제 해결 기존 코드 리펙토링으로 해상도 호환, 로딩시간 감축 기존 개발자에게 부족한 기술 스택 교육 업무 결과 기술의 부족으로 개발이 멈춰있었으나 문제 해결으로 제품의 출시 2020.11.15 ~ 2021.09.15 환자 관리 프로세스 개발 (메인 개발자) 개요 치과 환자의 비대면 예약 및 관리 시스템 개발 주요 업무 React, Node.js, Socket.io, React Native를 활용한 실시간 예약 시스템 구축 업무 결과 코로나 시대에 맞춘 병원 관리 시스템으로 확장 가능성 확보 Problem Experience slack bot 응답시간 초과 에러 문제 : LLM 기반 Slack Bot의 응답 시간이 5초 이상 소요됨 해결 : Python 멀티스레딩을 활용하여 속도 문제 해소 성과 : LLM 도입에도 1초 내 응답으로 정상 운영 가능 비고 : LLM에서 답변의 생성시간이 오래 걸리기 때문에 해당 작업을 따로 작업을 시키면 응답에 문제가 없음 대용량 크롤링의 효율 증대 문제 : Selenium 기반 크롤링의 병렬 처리 부재로 속도 저하 해결 : Scrapy 프레임워크를 도입하여 병렬 처리 구현 성과 : 크롤링 속도를 기존 대비 40배 향상 비고 : 획기적인 시간 단축으로 효율 상승. 실시간 동작을 고려하면 시간을 들여 세부적인 리펙토링이 더 효과적 2중 병렬처리의 시간성 문제 유발 문제 : Scrapy와 FastAPI의 병렬 실행 충돌 해결 : Scrapy를 subprocess에서 실행하여 동기적 처리 성과 : 두 프레임워크를 효율적으로 결합하여 성능 최적화 비고 : 비동기적인 코드를 같이 활용하는것은 시스템적으로 문제가 발생가능, 시스템의 동작 방식으로 해결해볼 수 있음 History 2024.10.01 – 팀 GLEADA 유니티를 활용한 게임 개발 2024.02.14 – 2024.10.31 Coding Is Coffee Slack Bot 서버 개발 FastAPI, Python 교육 코드 검토 및 사례들을 활용한 코드 규정 구축 원활한 소통을 위한 칸반보드 구축 2023.07.17 – 2024.02.08 패스트 캠퍼스 AI 부트캠프 AI 프로젝트 개발 2022.10.12 – 2022.12.20 (주) 다람지 크로스플랫폼 모바일 앱 개발 백엔드 개발 2021.09.16 – 2023.02.14 팀 버펙트 정부 부처 홈페이지 유지보수 크로스플랫폼 모바일 앱 유지보수 CRM 리팩토링 및 유지보수 2020.11.15 – 2021.09.15 원업크리에이티브 비대면 병원 예약 시스템 개발 모바일 앱 생성 플랫폼 리팩토링 및 수정 워드프레스 및 그누보드 기반 홈페이지 유지보수 Education 울산대학교 전기전자 공학 전공 (학점: 3.47 / 4.5) 학부 연구생으로 논문 분석 및 연구 경험 다양한 경험을 통해 소통과 협업의 중요성 인지 Why Me? 프론트엔드 & 백엔드 풀스택 개발 경험 웹 퍼포먼스 최적화 & 실시간 데이터 처리 경험 크로스 플랫폼 개발 경험 원활한 소통과 협업을 통한 팀워크 중시 AI & MLOps 지식 기반으로 차별화된 기술력 보유 다양한 언어 경험으로 빠른 적응 Skills FrontEnd BackEnd AI ETC

None · 2024-04-01

Django relations

How to use relations in Django relation은 모델을 더욱 유연하고 연결성이 좋게 만들 수 있습니다. 잘못 설정할 경우 오히려 복잡해지기도 하며, 아래의 방식을 참조하여 정확하게 설정해야 합니다. Django에서는 다음 방식의 relation key가 있습니다. Foriegn Key(many to one) 일반적으로 가장 흔하게 사용되는 관계입니다. 다중값을 가져와야하여 query로 값이 나오게 됩니다. one to one 1대1로 매칭이 되는 상황에서 사용이 가능하며 object를 바로 가져오는 방식이 가능합니다. many to many 관계가 종속적이라기 보다 상호관계를 가지게 되는 형태로 가장 일반적이지 못한 형태입니다. Field of model model의 column들을 정의 하는 field는 다음과 같이 사용할 수 있습니다. Field Option Field의 옵션은 다음과 같으며 모든 Field가 모든 옵션을 사용할 수는 없습니다. Field 옵션 설명 to 필드의 기본값을 설정합니다. related_name 추상 모델에서 관계를 정의할 때 사용될 이름을 의미합니다. on_delete 개체가 제거될 때의 동작을 설정합니다. db_column 데이터베이스의 컬럼의 이름을 설정합니다. limite_choices_to json형식으로 데이터베이스의 컬럼의 옵션을 추가해 filter를 적용합니다. 다음은 on_delete일때 외래키의 작동요건을 나타냅니다. on_delete 의미 models.CASCADE 외래키를 포함하는 행도 함께 삭제 models.PROTECT 해당 요소가 함께 삭제되지 않도록 오류 발생 (ProtectedError) models.SET_NULL 외래키 값을 NULL 값으로 변경 (null=True일 때 사용 가능) models.SET(func) 외래키 값을 func 행동 수행 (func는 함수나 메서드 등을 의미) models.DO_NOTHING 아무 행동을 하지 않음 외래키는 정규참조와 역참조로 이루어지는데 일반적인 방식의 반대가 역참조입니다. 역참조는 일반참조와 달리 사용방법이 달라집니다. related_name이 선언되어 있지 않으면 (1)와 같이 역참조가 가능하며 선언되어 있으면 (2)와 같이 참조가 가능합니다. (2)번 방식이 일반적으로 선호됩니다. 혹시나 2개이상의 참조를 하는 경우 (1)번 방식은 동작을 하지 않기 때문입니다. (1) {% highlight shell %} job1 = .objects.get(id = 1) people = job1._set.all() {% endhighlight %} (2) {% highlight shell %} job1 = .objects.get(id = 1) people = job1..all() {% endhighlight %}

PYTHON

/

Framework

/

Django · 2024-03-28

Django advance

Advance HttpRequest HttpRequest.headers # request의 headers 객체 HttpRequest.body # request의 body 객체 HttpRequest.COOKIES # 모든 쿠키를 담고 있는 딕셔너리 객체 HttpRequest.method # reqeust의 메소드 타입 HttpRequest.FILES # 로 보낸 UploadFile! HttpRequest.META # HTTP 헤더가 포함하는 모든 접근 가능한 정보를 담고 있는 dict, 메타 정보는 (당연히) web-server에 영향을 받는다. HttpRequest.GET # GET 파라미터를 담고 있는 QueryDict instance HTTpRequest.POST # POST 파라미터를 담고 있는 QueryDict instance queryDict instance Query Expression F function python에서 핸들링 하는것이 아닌 Query로 만들어서 database에서 핸들링을 할 수 있는 방법입니다. {% highlight python %} User.objects.all().update(user_id=F(‘user_id’) + 1) # Base company = Company.objects.annotate(chairs_needed=F(‘num_employees’) - F(‘num_chairs’)) # annotate same field from django.db.models import DateTimeField, ExpressionWrapper, F Ticket.objects.annotate( expires=ExpressionWrapper( F(‘active_at’) + F(‘duration’), output_field=DateTimeField() ) ) # annotate different field {% endhighlight %} Docs Func function Func 방식은 Django에서 구현되지 않은 query의 구문을 사용하고자 할때 활용 가능합니다. {% highlight python %} class UNNEST(Func): function = ‘UNNEST’ temp = Test.objects.annotate(user=UNNEST(‘user’)) {% endhighlight %} Func Q function Q 방식은 Django에서 구현되어 있는 구현체로 조건들을 활용할때 사용하기 좋습니다. {% highlight python %} Product.objects.filter(Q(category=’A’) & Q(sub_category=’AB’)) {% endhighlight %} Value function Value는 기본적인 형태로 단순한 값을 의미합니다. {% highlight python %} User.objects.filter(“user”, Value(“_”), “id”) {% endhighlight %} annotate function annotate는 별칭을 주는것과 같으며 nested와 같은 구조에서 명칭이 복잡할때 사용 가능합니다. {% highlight python %} logs = OrderLog.objects.annotate( name=F(“product__name”), price=F(“product__price”) ).values( ‘created’, ‘name’, ‘price’ ) {% endhighlight %} subquery function subquery는 query를 사용하여 query를 만드는 복잡한 형태의 query를 구성할때 사용합니다. {% highlight python %} from django.db.models import OuterRef, Subquery newest = Comment.objects.filter(post=OuterRef(‘pk’)).order_by(‘-created_at’) Post.objects.annotate(newest_commenter_email=Subquery(newest.values(‘email’)[:1])) {% endhighlight %} Transaction database에서 일관적으로 한번에 작업이 되어야하는 단위를 transaction 이라합니다. 이를 통하여 안정된 서비스를 구현할 수 있으나 과도한 transaction은 오히려 서비스를 느리게 만들 수 있습니다. {% highlight python %} from django.db import transaction @transaction.atomic() def update_user(user_id: int, updated_company_name: str): Profile.objects.filter(user__id=user_id).update(company_name=updated_company_name) User.objects.filter(id=user_id).update(company_name=updated_company_name) {% endhighlight %} commit() transaction을 종료하며 저장합니다. rollback() transaction을 종료하며 처음으로 돌아갑니다. on_commit() transaction commit 종료 이후에 동작이 되야할 경우 사용 savepoint() transaction 도중에 savepoint를 지정하여 commit 또는 rollback같은 작업을 할 수 있습니다. Signal signal은 main logic과 별개로 실행해야하는 작업이 있을때 사용할 수 있습니다. 하지만 비동기적으로 작동되는 로직이 아니라서 celery와 같은것을 활용하는것을 추천합니다. {% highlight python %} 우선 signals.py 를 특정 앱(여기선 user) 안에 만든다. from django.db.models.signals import post_save from django.contrib.auth.models import User def create_profile(sender, instance, created, **kwargs): if created == True: user = instance profile = Profile.objects.create( owner = user, user_name = user.username, email = user.email, name = user.first_name, ) post_save.connect(create_profile, sender=User) 아래에서 더 자세히 보겠지만, connect를 쓰기 싫으면, 아래 app config를 진행하면 된다. signal의 코드 분리를 위해 app config에서, app이 load 될 때 signal을 import하게 한다. (user) apps.py class UserConfig(AppConfig): name = ‘user’ def ready(self) -> None: # DB signal import app.user.signals return super().ready() {% endhighlight %}

PYTHON

/

Framework

/

Django · 2024-03-27

Django view

What is View How to use View view를 사용하는 방식은 Fuction, Class 두가지 방식이 있습니다. 원래의 Django는 Fuction으로 구성되어 있었으나 OOP의 장점을 이용하는 Class 형식이 추후에 추가 되었습니다. FBV 다음은 Fuction을 사용한 View의 기본 예제입니다. {% highlight python %} @api_view([‘GET’, ‘POST’]) def index(request): if request.method == ‘POST’: return HttpResponse(“Post method”) else: return HttpResponse(“Get method”) {% endhighlight %} CBV 다음은 class를 사용한 View의 기본 예제입니다. 이러한 방식은 상속과 같이 확장성을 가지지만 모든 상황에서 최선은 아닙니다. {% highlight python %} from django.views import View class ContactView(View): def post(self, request): return HttpResponse(“Post method”) def get(self, request): return HttpResponse(“Get method”) {% endhighlight %} {% highlight python %} quickstart/views.py from django.http import HttpResponse, JsonResponse from django.views.decorators.csrf import csrf_exempt from rest_framework.parsers import JSONParser # 그냥 json 파싱만 위해,, @csrf_exempt def snippet_list(request): “”” List all code snippets, or create a new snippet. “”” if request.method == ‘GET’: snippets = Snippet.objects.all() serializer = SnippetSerializer(snippets, many=True) return JsonResponse(serializer.data, safe=False) elif request.method == 'POST': data = JSONParser().parse(request) serializer = SnippetSerializer(data=data) if serializer.is_valid(): serializer.save() return JsonResponse(serializer.data, status=201) return JsonResponse(serializer.errors, status=400) {% endhighlight %} Prev(how to start) Prev

PYTHON

/

Framework

/

Django · 2024-03-26

Django serializer

PYTHON

/

Framework

/

Django · 2024-03-25

Django models

PYTHON

/

Framework

/

Django · 2024-03-22

Django rest api

How to start Django restfulAPI Django를 활용하여 REST API를 만드는데 최적화 되어 있는 모듈입니다. 다음의 방식으로 다운받을 수 있습니다. {% highlight shell %} pip install djangorestframework pip install markdown # Markdown support for the browsable API. pip install django-filter # Filtering support {% endhighlight %} setting.py {% highlight python %} INSTALLED_APPS = [ # default setting …, ‘rest_framework’, ] REST_FRAMEWORK = [ # additional pagination setting ‘DEFAULT_PAGINATIOM_CLASS’: ‘rest_framework.pagination.pageNumberPagination’, ‘PAGE_SIZE’: 50 ] {% endhighlight %} Next step models serializers views Prev(how to start) Prev

PYTHON

/

Framework

/

Django · 2024-03-21

Django additional module

PYTHON

/

Framework

/

Django · 2024-03-21

Django intro

What is Django Django python으로 구현된 web framework입니다. Getting start 다음은 아주 기본적인 django 의 실행방식입니다. {% highlight shell %} pip install Django # Django 설치 python -m django –version # Django 설치 확인 django-admin startproject # 프로젝트 생성 cd python manage.py runserver # 프로젝트 실행 {% endhighlight %} 다음은 startproject로 생성되는 파일의 구조입니다. <proj-name>/ manage.py <proj-name>/ __init__.py settings.py urls.py asgi.py wsgi.py Creating App 다음은 django에서 App을 만들고 연결하는 방법입니다. {% highlight shell %} python manage.py startapp # create App {% endhighlight %} 다음은 startapp으로 생성되는 dir의 구조 입니다. <app-name>/ __init__.py admin.py apps.py migrations/ __init__.py models.py tests.py urls.py views.py <app-name>/views.py {% highlight python %} from django.http import HttpResponse def index(request): return HttpResponse(“Hello, world. You’re at the polls index.”) {% endhighlight %} <app-name>/urls.py {% highlight python %} from django.urls import path from . import views urlpatterns = [ path(“”, views.index, name=”index”), ] {% endhighlight %} <proj-name>/urls.py {% highlight python %} from django.contrib import admin from django.urls import include, path urlpatterns = [ path(“/", include(".urls")), path("admin/", admin.site.urls), ] {% endhighlight %} Setting database 다음은 django에서 database를 세팅하는 방법입니다. Django는 기본으로 SQLite를 활용하지만 설정을 변경하여 수정이 가능합니다. mysql 다음은 mysql 예시입니다. 필수 모듈 설치 {% highlight shell %} pip install mysqlclient {% endhighlight %} <proj-name>.settings.py에 DB 옵션변경 {% highlight python %} DATABASES = { ‘default’: { ‘ENGINE’: ‘django.db.backends.mysql’, ‘NAME’: ‘', 'USER': '', 'PASSWORD': '', 'HOST': 'localhost', 'PORT': '3306', } } {% endhighlight %} postgre 다음은 postgre 예시입니다. 필수 모듈 설치 {% highlight shell %} pip install psycopg2 {% endhighlight %} postgre setting {% highlight shell %} sudo su - postgres # postgre 실행 psql CREATE DATABASE django_test; # postgre 유저 및 DB 생성 CREATE USER django_user WITH PASSWORD ‘django_pass’; ALTER ROLE django_user SET client_encoding TO ‘utf8’; ALTER ROLE django_user SET default_transaction_isolation TO ‘read committed’; ALTER ROLE django_user SET timezone TO ‘UTC’; GRANT ALL PRIVILEGES ON DATABASE django_test TO django_user; \q {% endhighlight %} <proj-name>.settings.py에 DB 옵션변경 {% highlight python %} DATABASES = { ‘default’: { ‘ENGINE’: ‘django.db.backends.mysql’, ‘NAME’: ‘', 'USER': '', 'PASSWORD': '', 'HOST': 'localhost', 'PORT': '3306', } } {% endhighlight %} Next(Web page) Next Next(Rest API) Next

PYTHON

/

Framework

/

Django · 2024-03-20

Llamaindex ChatBot

what is ChatBot Chat bot은 사용자가 질문을 하면 원하는 답변을 해주는 것을 이야기합니다. 아래는 Chat bot을 활용한 일부 예시 입니다. simple example system prompt example templet example llama-parser, faiss example

AI

/

NLP

/

llama index · 2024-03-19

Llamaindex RAG

what is RAG RAG는 Retrieval Augmented Generation의 약자로 언어 모델의 응답이 조금 더 좋은 결과를 도출하기 위한 것입니다. 이는 추가적인 데이터들을 기반으로 좋은 응답 결과를 보장하게 됩니다. 아래는 RAG를 활용한 일부 예시 입니다. simple example SentenceWindowNodeParser example llama-parser example llama-parser, faiss example

AI

/

NLP

/

llama index · 2024-03-18

Llamaindex retriever

what is retriever retriever는 검색엔진과 같은 역활을 합니다. index에 있는 값들을 query를 이용하여 관련된 내용을 추출해 내줍니다. how to use retriever 간단하게 사용하는 방식은 아래와 같이 사용할 수 있습니다. {% highlight shell %} retriever = index.as_retriever() nodes = retriever.retrieve(“{question}”) {% endhighlight %} how to use retriever advance retriever를 사용하는 고급 기법이 아래와 같이 존재합니다. 이방식은 index의 종류별로 상세하게 세팅을 하는 방법이며 retriever modes를 참고하여 다양한 retriever를 만들어 볼 수 있습니다. {% highlight shell %} retriever = summary_index.as_retriever( retriever_mode=”llm”, choice_batch_size=5, ) {% endhighlight %}

AI

/

NLP

/

llama index · 2024-03-15

Llamaindex pipeline

AI

/

NLP

/

llama index · 2024-03-14

Llamaindex embedding

what is embedding embedding은 입력을 받은 document or node에 있어서 vector로 나타내는것입니다. 이를 통하여 코사인 유사도와 같이 문서들간의 유사성을 계산하여 문서를 효율적으로 사용할 수 있게 됩니다. llama는 기본적으로 코사인 유사도를 사용하고 있으며 아래의 방식으로 다양한 embedding을 사용해 볼 수 있습니다. W. OpenAI OpenAI에서 사용하는 embedding을 사용하려면 아래와 같이 사용하면 됩니다. 하지만 유료인점을 참고해야합니다. {% highlight shell %} pip install llama-index-embeddings-openai {% endhighlight %} {% highlight python %} import os OPENAI_API_TOKEN = “sk-“ os.environ[“OPENAI_API_KEY”] = OPENAI_API_TOKEN from llama_index.embeddings.openai import OpenAIEmbedding from llama_index.core import Settings global Settings.embed_model = OpenAIEmbedding(embed_batch_size=42) # default is 10 per-index index = VectorStoreIndex.from_documents(documents, embed_model=embed_model) {% endhighlight %} W. hugging face hugging face를 사용하여 enbedding을 하는 방식은 아래와 같습니다. {% highlight shell %} pip install llama-index-embeddings-huggingface {% endhighlight %} {% highlight python %} from llama_index.embeddings.huggingface import HuggingFaceEmbedding from llama_index.core import Settings Settings.embed_model = HuggingFaceEmbedding( model_name=”BAAI/bge-small-en-v1.5” ) {% endhighlight %} W. hugging face(W. ONNX) hugging face를 ONNX로 사용하는 법은 아래와 같습니다. {% highlight shell %} pip install transformers optimum[exporters] pip install llama-index-embeddings-huggingface-optimum {% endhighlight %} {% highlight python %} from llama_index.embeddings.huggingface_optimum import OptimumEmbedding OptimumEmbedding.create_and_save_optimum_model( “BAAI/bge-small-en-v1.5”, “./bge_onnx” ) Settings.embed_model = OptimumEmbedding(folder_name=”./bge_onnx”) {% endhighlight %} W. langchain langchain에서 지원하는 다양한 embedding을 사용할 수 있습니다. langchain embeddings list {% highlight shell %} pip install llama-index-embeddings-langchain {% endhighlight %} {% highlight python %} from langchain.embeddings.huggingface import HuggingFaceBgeEmbeddings from llama_index.core import Settings Settings.embed_model = HuggingFaceBgeEmbeddings(model_name=”BAAI/bge-base-en”) {% endhighlight %} W. custom embedding 위에서 사용할 수 있는 다양한 embedding 이외에 다른 embedding을 직접 만들어서 활용하려면 아래와 같이 해볼 수 있습니다. {% highlight python %} from typing import Any, List from InstructorEmbedding import INSTRUCTOR from llama_index.core.embeddings import BaseEmbedding class InstructorEmbeddings(BaseEmbedding): def init( self, instructor_model_name: str = “hkunlp/instructor-large”, instruction: str = “Represent the Computer Science documentation or question:”, kwargs: Any, ) -> None: self._model = INSTRUCTOR(instructor_model_name) self._instruction = instruction super().__init__(kwargs) def _get_query_embedding(self, query: str) -> List[float]: embeddings = self._model.encode([[self._instruction, query]]) return embeddings[0] def _get_text_embedding(self, text: str) -> List[float]: embeddings = self._model.encode([[self._instruction, text]]) return embeddings[0] def _get_text_embeddings(self, texts: List[str]) -> List[List[float]]: embeddings = self._model.encode( [[self._instruction, text] for text in texts] ) return embeddings async def _get_query_embedding(self, query: str) -> List[float]: return self._get_query_embedding(query) async def _get_text_embedding(self, text: str) -> List[float]: return self._get_text_embedding(text) {% endhighlight %} other embeddings 이외에도 다양한 embedding을 사용할 수 있으며 아래는 지원하는 embedding list 입니다. embeddings list

AI

/

NLP

/

llama index · 2024-03-13

Llamaindex index

what is index index는 RAG와 같이 검색을 하는 구조에서 빠르게 검색하기 위한 구조입니다. 추가적인 활용처로는 채팅봇과 같이 QA로 사용할 수 있습니다. vector store index index 기법에서 가장 흔하게 사용이 되는 방법입니다. 이는 vector store를 활용하여 indexing을 하는 방법입니다. 아래와 같이 document을 바로 활용하는 방법과 node를 활용하는 방법 2가지로 이루어져 있습니다. {% highlight python %} from llama_index.core import VectorStoreIndex index = VectorStoreIndex.from_documents(documents) {% endhighlight %} {% highlight python %} from llama_index.core.schema import TextNode node1 = TextNode(text=”", id_="") node2 = TextNode(text="", id_="") nodes = [node1, node2] index = VectorStoreIndex(nodes) {% endhighlight %} default vectorstore이외에도 다양한 custom vectorstore를 사용할 수 있으며 아래는 간단한 예시를 나타냅니다. {% highlight python %} import pinecone from llama_index.core import ( VectorStoreIndex, SimpleDirectoryReader, StorageContext, ) from llama_index.vector_stores.pinecone import PineconeVectorStore init pinecone pinecone.init(api_key=”", environment="") pinecone.create_index( "quickstart", dimension=1536, metric="euclidean", pod_type="p1" ) construct vector store and customize storage context storage_context = StorageContext.from_defaults( vector_store=PineconeVectorStore(pinecone.Index(“quickstart”)) ) Load documents and build index documents = SimpleDirectoryReader( “../../examples/data/paul_graham” ).load_data() index = VectorStoreIndex.from_documents( documents, storage_context=storage_context ) {% endhighlight %} other index guides vector store가 가장 흔한 indexing 기법이지만 그 이외에도 아래와 같이 다양한 기법들이 있습니다. other index guides W. other embedding module 기본적으로 llama에서 제공하는 embedding으로 동작이 되지만 다른 embedding을 사용하고 싶으면 아래를 참고하여 변경이 가능합니다. embedding module pipeline documents advance(1)와 nodes advance(1)까지 확인 이후 pipeline을 아래와 같이 도입 가능합니다. document node index pipeline

AI

/

NLP

/

llama index · 2024-03-12

Llamaindex nodes Advance(1)

AI

/

NLP

/

llama index · 2024-03-11

Llamaindex nodes

what is nodes 노드는 documents를 텍스트, 이미지 등등의 각 chunk로 나누는 것을 의미합니다. 이렇게 생성된 노드는 metadata정보와 관계도 정보가 포함되어 있습니다. how to use nodes(W. documents) 아래의 방식으로 node를 활용하기 위하여 documents를 사용할 수 있어야합니다. 아래의 링크를 참고해주세요. documents documents를 활용하여 간단하게 node를 사용하려면 다음과 같이 사용하면 됩니다. {% highlight python %} from llama_index.core.node_parser import SentenceSplitter parser = SentenceSplitter() nodes = parser.get_nodes_from_documents(documents) {% endhighlight %} how to use nodes(custom text) 아래의 방식으로 각각의 text를 수동으로 node를 만들어 줄 수도 있습니다.(고급) {% highlight python %} from llama_index.core.schema import TextNode, NodeRelationship, RelatedNodeInfo node1 = TextNode(text=”", id_="") node2 = TextNode(text="", id_="") set relationships node1.relationships[NodeRelationship.NEXT] = RelatedNodeInfo( node_id=node2.node_id ) node2.relationships[NodeRelationship.PREVIOUS] = RelatedNodeInfo( node_id=node1.node_id ) nodes = [node1, node2] {% endhighlight %} 또한 아래와 같이 node간의 종속적 정보를 추가 할 수 있습니다. {% highlight python %} node2.relationships[NodeRelationship.PARENT] = RelatedNodeInfo( node_id=node1.node_id, metadata={“key”: “val”} ) {% endhighlight %} 노드는 다음의 방식으로 id를 직접 주입할 수 있습니다. 이러한 id 값은 다양한 역활을 할 수 있습니다. {% highlight python %} node.node_id = “My new node_id!” {% endhighlight %} Advance nodes advance(1)

AI

/

NLP

/

llama index · 2024-03-08

Llamaindex documents Advance(1)

documents loaders flat document documents는 다양한 형태를 가진 파일들을 불러오는데 사용이 될 수 있으나, 단순한 파일을 불러올 수도 있습니다. 단순한 파일을 불러올때는 아래와 같이 단순한 방식이 제공됩니다. {% highlight python %} from llama_index.readers.file import FlatReader from pathlib import Path md_docs = FlatReader().load_data(Path(“./test.md”)) {% endhighlight %} other document loader other document loader metadata extraction usage pattern 다음과 같이 LLM을 사용하여 metadata를 추출해낼 수 있습니다. {% highlight shell %} pip install llama-index-extractors-entity {% endhighlight %} {% highlight python %} import os OPENAI_API_TOKEN = “sk-“ os.environ[“OPENAI_API_KEY”] = OPENAI_API_TOKEN llm = OpenAI(temperature=0.1, model=”gpt-3.5-turbo”, max_tokens=512) from llama_index.core.extractors import ( TitleExtractor, QuestionsAnsweredExtractor, SummaryExtractor, KeywordExtractor, BaseExtractor, ) from llama_index.extractors.entity import EntityExtractor class CustomExtractor(BaseExtractor): def extract(self, nodes): metadata_list = [ { “custom”: ( node.metadata[“document_title”] + “\n” + node.metadata[“excerpt_keywords”] ) } for node in nodes ] return metadata_list title_extractor = TitleExtractor(nodes=5) qa_extractor = QuestionsAnsweredExtractor(questions=3) summary_extractor = SummaryExtractor(summaries=[“prev”, “self”,”next”]) keyword_extractor = KeywordExtractor(keywords=10, llm=llm), custom_extractor = CustomExtractor() entity_extractor = EntityExtractor( prediction_threshold=0.5, label_entities=False, # include the entity label in the metadata (can be erroneous) device=”cpu”, # set to “cuda” if you have a GPU ) {% endhighlight %} pipeline nodes advance(1)까지 확인 이후 pipeline을 아래와 같이 도입 가능합니다. document node pipeline

AI

/

NLP

/

llama index · 2024-03-07

Llamaindex documents

AI

/

NLP

/

llama index · 2024-03-06

Llamaindex intro

AI

/

NLP

/

llama index · 2024-03-05

Hugging face intro

How to start 우선 허깅페이스에 가입을 해야합니다. Hugging face 가입을 하고나면 아래와 같은 설명이 나옵니다. Authentication 홈페이지 가입이후 이메일의 인증을 해줘야하며, 인증을 완료하면 아래과 같이 organization을 설정할 수 있다. 이미 존재하는 organization에 가입하거나 직접 만들어주면 된다. 이메일 인증 이후 setting에서 Authentication에 접근하면 아래와 같이 세팅을 할 수 있다. 2FA 세팅에는 google에서 제공하는 Authentication 어플을 활용하여 진행이 가능하다. create personal repository 홈페이지에서 관리할 수 있지만 CLI를 통하여 아래와 같이 관리가 가능하다. 홈페이지 setting에서 Access Tokens에 접근하면 token을 생성할 수 있습니다. token은 읽기용 쓰기용 2가지로 나뉘어 진다. 서버에서 가져와서 활용할때는 read, 서버에 등록할때는 write를 활용하면 됩니다. {% highlight shell %} pip install huggingface_hub huggingface-cli login huggingface-cli repo create --type {model, dataset, space} {% endhighlight %} use personal repository 개인 레포지토리를 사용하려면 아래와 같이 가져와서 git과 같이 활용하면 됩니다. {% highlight shell %} git lfs install git clone https://huggingface.co// {% endhighlight %} use hugging face model 코드상으로 huggingface를 활용하려면 아래와 같은 폼을 활용하면 활용이 가능하다. 자세한 방법은 각각의 모델과 토크나이저를 업로드한 organization을 확인하면 됩니다. {% highlight shell %} from transformers import AutoModelForCausalLM, AutoTokenizer REPO_ID = “” FILENAME = “” model_id = f”{REPO_ID}/{FILENAME}” model = AutoModelForCausalLM.from_pretrained(model_id) tokenizer = AutoTokenizer.from_pretrained(model_id) {% endhighlight %}

AI

/

NLP

/

hugging face · 2024-03-04

Ollama intro

How to start 우선 ollama를 설치하여 진행해야하기 때문에 아래에서 OS에 맞는 ollama를 우선 설치해야 합니다. ollama를 설치하였다면 사용할 모델을 아래와 같이 받으면 됩니다. {% highlight shell %} ollama pull {% endhighlight %} 다운받을 수있는 모델은 다음 홈페이지에서 확인이 가능합니다. ollama check installed model 설치한 모델을 확인하려면 다음과 같이 확인이 가능합니다. {% highlight shell %} ollama list {% endhighlight %} check installed model info 설치한 모델의 정보를 확인하려면 다음과 같이 확인이 가능합니다. {% highlight shell %} ollama show {--license, --modelfile, --parameters, --system, --template} {% endhighlight %} copy installed model 설치한 모델을 복제하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama cp {% endhighlight %} run model in CLI 설치한 모델을 CLI에서 실행하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama run {% endhighlight %} remove installed model 설치한 모델을 삭제하려면 다음과 같이 진행이 가능합니다. {% highlight shell %} ollama rm {% endhighlight %}

AI

/

NLP

/

ollama · 2024-03-01

redis

what is redis 우dd How to install redis 우dd Window wsl을 설정 후 wsl에서 세팅이 가능합니다. 설치 {% highlight shell %} curl -fsSL https://packages.redis.io/gpg | sudo gpg –dearmor -o /usr/share/keyrings/redis-archive-keyring.gpg echo “deb [signed-by=/usr/share/keyrings/redis-archive-keyring.gpg] https://packages.redis.io/deb $(lsb_release -cs) main” sudo tee /etc/apt/sources.list.d/redis.list sudo apt-get update sudo apt-get install redis {% endhighlight %} 실행 {% highlight shell %} sudo service redis-server start {% endhighlight %} 동작확인 {% highlight shell %} redis-cli ping {% endhighlight %}

ETC · 2024-02-21

Celery

What is Celery Celery는 일종의 worker와 같습니다. worker는 broker라는 매개체를 이용하여 작업을 분산적으로 동작하게 해줍니다. broker는 redis나 RabbitMQ와 같은것들을 활용하여 동작됩니다. How to use Celery celery는 다음의 순서로 실행이 가능합니다. {% highlight shell %} pip install -U Celery # install celery {% endhighlight %} 이후의 다양한 bundles이 존재하기 때문에 필요 상황에 맞게 다운 받아서 사용하면 됩니다. 아래는 기초적인 사용 예시를 첨부하였습니다. {% highlight python %} from celery import Celery app = Celery(‘hello’, broker=’amqp://guest@localhost//’) @app.task def hello(): return ‘hello world’ {% endhighlight %} {% highlight python %} celery -A worker {% endhighlight %}

PYTHON

/

Library · 2024-02-19

basic shell command

OS

/

Window

/

WSL · 2024-02-14

basic window setting

env setting 환경변수 정보 가져오는 방법입니다. “User” 사용시 사용자 환경변수, 없애면 시스템 환경변수를 가져옵니다. {% highlight shell %} [System.Environment]::GetEnvironmentVariable(, "User") {% endhighlight %} {% highlight shell %} $userenv = “” # userenv라는 명칭의 변수사용 $env:path # system path $env:userprofile # user root path $env: # other variables {% endhighlight %} 환경변수를 지정해주는 방법입니다. {% highlight shell %} [System.Environment]::SetEnvironmentVariable(“PATH”, $userenv + “;C:\Users\Administrator\Ubuntu”, “User”) {% endhighlight %} 환경변수를 제거해주는 방법입니다. {% highlight shell %} $removePath = “" # 삭제할 path 설정 $regexRemovePath = [regex]::Escape($removePath) # 삭제할 path 규격화 $arrPath = $env:Path -split ‘;’ | Where-Object {$_ -notMatch “^$regexRemovePath\?”} # 삭제할 path 제외하고 정렬 $env:Path = $arrPath -join ‘;’ # 정렬한 path 적용 {% endhighlight %}

OS

/

Window

/

basic · 2024-02-13

additional info

str, repr

PYTHON

/

Advance · 2024-02-12

FastAPI Advance

Advance 준비중입니다. Advance

PYTHON

/

Framework

/

FastAPI · 2024-02-08

FastAPI SQL

SQL SQL은 다음과 같이 구조화 하여 사용할 수 있습니다. sql_app/__init__.py: empty sql_app/database.py sql_app/models.py sql_app/schemas.py sql_app/crud.py sql_app/main.py sql_app/database.py database 파일은 다음과 같이 구성됩니다. {% highlight python %} from sqlalchemy import create_engine from sqlalchemy.ext.declarative import declarative_base from sqlalchemy.orm import sessionmaker SQLALCHEMY_DATABASE_URL = “sqlite:///./sql_app.db” SQLALCHEMY_DATABASE_URL = “postgresql://user:password@postgresserver/db” engine = create_engine( SQLALCHEMY_DATABASE_URL, connect_args={“check_same_thread”: False} ) SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine) Base = declarative_base() {% endhighlight %} sql_app/models.py models 파일은 다음과 같이 구성됩니다. {% highlight python %} from sqlalchemy import Boolean, Column, ForeignKey, Integer, String from sqlalchemy.orm import relationship from .database import Base class User(Base): tablename = “users” id = Column(Integer, primary_key=True) email = Column(String, unique=True, index=True) hashed_password = Column(String) is_active = Column(Boolean, default=True) items = relationship("Item", back_populates="owner") class Item(Base): tablename = “items” id = Column(Integer, primary_key=True) title = Column(String, index=True) description = Column(String, index=True) owner_id = Column(Integer, ForeignKey("users.id")) owner = relationship("User", back_populates="items") {% endhighlight %} sql_app/schemas.py schemas 파일은 다음과 같이 구성됩니다. {% highlight python %} from typing import Union from pydantic import BaseModel class ItemBase(BaseModel): title: str description: Union[str, None] = None class ItemCreate(ItemBase): pass class Item(ItemBase): id: int owner_id: int class Config: orm_mode = True class UserBase(BaseModel): email: str class UserCreate(UserBase): password: str class User(UserBase): id: int is_active: bool items: list[Item] = [] class Config: orm_mode = True {% endhighlight %} sql_app/crud.py crud 파일은 다음과 같이 구성됩니다. {% highlight python %} from sqlalchemy.orm import Session from . import models, schemas def get_user(db: Session, user_id: int): return db.query(models.User).filter(models.User.id == user_id).first() def get_user_by_email(db: Session, email: str): return db.query(models.User).filter(models.User.email == email).first() def get_users(db: Session, skip: int = 0, limit: int = 100): return db.query(models.User).offset(skip).limit(limit).all() def create_user(db: Session, user: schemas.UserCreate): fake_hashed_password = user.password + “notreallyhashed” db_user = models.User(email=user.email, hashed_password=fake_hashed_password) db.add(db_user) db.commit() db.refresh(db_user) return db_user def get_items(db: Session, skip: int = 0, limit: int = 100): return db.query(models.Item).offset(skip).limit(limit).all() def create_user_item(db: Session, item: schemas.ItemCreate, user_id: int): db_item = models.Item(**item.dict(), owner_id=user_id) db.add(db_item) db.commit() db.refresh(db_item) return db_item {% endhighlight %} sql_app/main.py main 파일은 다음과 같이 구성됩니다. {% highlight python %} from fastapi import Depends, FastAPI, HTTPException from sqlalchemy.orm import Session from . import crud, models, schemas from .database import SessionLocal, engine models.Base.metadata.create_all(bind=engine) app = FastAPI() Dependency def get_db(): db = SessionLocal() try: yield db finally: db.close() @app.post(“/users/”, response_model=schemas.User) def create_user(user: schemas.UserCreate, db: Session = Depends(get_db)): db_user = crud.get_user_by_email(db, email=user.email) if db_user: raise HTTPException(status_code=400, detail=”Email already registered”) return crud.create_user(db=db, user=user) @app.get(“/users/”, response_model=list[schemas.User]) def read_users(skip: int = 0, limit: int = 100, db: Session = Depends(get_db)): users = crud.get_users(db, skip=skip, limit=limit) return users @app.get(“/users/{user_id}”, response_model=schemas.User) def read_user(user_id: int, db: Session = Depends(get_db)): db_user = crud.get_user(db, user_id=user_id) if db_user is None: raise HTTPException(status_code=404, detail=”User not found”) return db_user @app.post(“/users/{user_id}/items/”, response_model=schemas.Item) def create_item_for_user( user_id: int, item: schemas.ItemCreate, db: Session = Depends(get_db) ): return crud.create_user_item(db=db, item=item, user_id=user_id) @app.get(“/items/”, response_model=list[schemas.Item]) def read_items(skip: int = 0, limit: int = 100, db: Session = Depends(get_db)): items = crud.get_items(db, skip=skip, limit=limit) return items {% endhighlight %} W. middleware 다음은 미들웨어를 사용한 예시를 제시합니다. {% highlight python %} @app.middleware(“http”) async def db_session_middleware(request: Request, call_next): response = Response(“Internal server error”, status_code=500) try: request.state.db = SessionLocal() response = await call_next(request) finally: request.state.db.close() return response Dependency def get_db(request: Request): return request.state.db {% endhighlight %}

PYTHON

/

Framework

/

FastAPI · 2024-02-07

FastAPI types

Enum Enum 클래스는 다음과 같이 사용할 수 있습니다. {% highlight python %} from enum import Enum class ModelName(str, Enum): alexnet = “alexnet” resnet = “resnet” lenet = “lenet” {% endhighlight %} 값을 사용하는 방식은 다음과 같이 사용 가능합니다. model.value Model.<key> {% highlight python %} app = FastAPI() @app.get(“/models/{model_name}”) async def get_model(model_name: ModelName): if model_name is ModelName.alexnet: {% endhighlight %} Optional Optional type의 경우 None일 수 있는 데이터를 의미하며 다음과 같이 작성할 수 있습니다. {% highlight python %} from typing import Optional app = FastAPI() @app.get(“/items/{item_id}”) async def read_item(item_id: Optional[int]): return {“item_id”: item_id} {% endhighlight %} httpUrl httpUrl type의 경우 url형식을 받을 수 있는 형식입니다. {% highlight python %} from fastapi import FastAPI from pydantic import BaseModel, HttpUrl app = FastAPI() class Image(BaseModel): url: HttpUrl name: str @app.put(“/items”) async def update_item(image: Image): results = {“image”: image} return results {% endhighlight %} output type output type의 경우 일반적인 방식으로 활용이 가능합니다. response_model=None은 2종류 이상의 타입이 가능할경우 pydantic의 규제를 피할때 사용할 수 있습니다. response_model_exclude_unset=True은 output을 넘겨줄때 pydantic의 default value는 무시하는 방법입니다. response_model_exclude={""}은 output을 넘겨줄때 넘겨주지 않을 value를 지정하는 방법입니다. {% highlight python %} from fastapi import FastAPI, Response from fastapi.responses import RedirectResponse app = FastAPI() @app.get(“/portal”, response_model=None, response_model_exclude_unset=True, response_model_exclude={“tax”}) async def get_portal(teleport: bool = False) -> Response | dict: if teleport: return RedirectResponse(url=”https://www.youtube.com/watch?v=dQw4w9WgXcQ”) return {“message”: “Here’s your interdimensional portal.”} {% endhighlight %} and others 이외에도 다양한 data type이 존재하며 다음과 같습니다. datetime.datetime datetime.date datetime.time datetime.timedelta frozenset bytes Decimal schema examples pydantic으로 형식을 만들때는 다음과 같이 예시문을 만들 수 있습니다. 예시문을 활용하면 docs에서 예시문을 확인할 수 있습니다. {% highlight python %} class Item(BaseModel): name: str description: str | None = None price: float tax: float | None = None model_config = { "json_schema_extra": { "examples": [ { "name": "Foo", "description": "A very nice Item", "price": 35.4, "tax": 3.2, } ] } } {% endhighlight %} pydantic이 아닐경우는 Body, Query, …에서 직접 예시문을 작성할 수도 있습니다. {% highlight python %} Body( examples=[ { “name”: “Foo”, “description”: “A very nice Item”, “price”: 35.4, “tax”: 3.2, } ], ), {% endhighlight %}

PYTHON

/

Framework

/

FastAPI · 2024-02-06

FastAPI intro Num.3

PYTHON

/

Framework

/

FastAPI · 2024-02-05

FastAPI intro Num.2

PYTHON

/

Framework

/

FastAPI · 2024-02-02

FastAPI intro Num.1

PYTHON

/

Framework

/

FastAPI · 2024-02-01

how to set python debug

how to set debug 우선 아래를 참고하여 기본적인 VSC setting에 접근하는 방법을 알아야 합니다. how to set VSC ctrl+shift+d를 입력하면 debugger 모드에 접근이 가능합니다. 처음 세팅을 하는 경우는 왼쪽 상단에 아래와 같이 나타나며 “create a launch.json file”을 클릭해주시면 됩니다. 처음 세팅하시는분이 아니라면 아래와 같이 표현이 되기도 합니다. 다음의 경우도 표시된 버튼을 눌려주시면 위와 똑같이 launch.json 파일을 생성합니다. for the virtual env user debug setting 가상환경을 사용한다면 위의 기본적인 debug 세팅 이후에 추가적인 세팅이 필요합니다. 아래와 같이 사용하는 가상환경의 python interpreter로 구동되는 python을 연결해 주셔야 설치한 모듈들이 정상적으로 작동 되게 되어있습니다. {% highlight shell %} { “version”: “0.2.0”, “configurations”: [ { “python”: “C:/Users//.virtualenvs//Scripts/python", } ] } {% endhighlight %}

IDE

/

VSC

/

python · 2023-12-15

how to set python interpreter

how to set interpreter 우선 아래를 참고하여 기본적인 VSC setting에 접근하는 방법을 알아야 합니다. how to set VSC 이후 json 파일에서 default interpreter를 아래와 같이 각자 python 위치를 활용하여 작성해줍니다. {% highlight shell %} “python.defaultInterpreterPath”: “%path%\python.exe” {% endhighlight %} 위의 세팅이 완료된 이후에 ctrl+shift+p를 입력후 Python: Select Interpreter를 선택합니다. default로 선택한 interpreter가 바로 보일경우 필요한 워크스페이스를 선택하여도 되며, 아닐경우 맨아래 select at workspace level을 선택하여 더 세부적인 interpreter를 선택할 수 있습니다. select at workspace level을 누르셨다면, 자체적으로 잡히는 Venv를 선택해도 됩니다. 또는 Enter interpreter path를 통하여 직접 interpreter를 찾아서 선택해 주어도 됩니다. 위의 세팅이 전부 완료된 이후 ctrl+shift+`를 입력하여 새로운 터미널을 열게 되면 interpreter가 적용된것을 알 수 있습니다.

IDE

/

VSC

/

python · 2023-12-14

how to use setting

start setting global setting visual studio code에서 setting을 하는 방법은 다음과 같습니다. 우선 ctrl + ,를 클릭하여 setting을 열어줍니다. 여기서 필요한 세팅을 해도 되고 아래의 이미지와 같이 setting.json을 활용하여 필요한 setting을 입력해줘도 됩니다. 위의 방식은 전체적인 VSC의 세팅을 하는것입니다. workspace setting 개별적인 VSC 세팅은 각각의 workspace에 .vscode 폴더를 생성 후 settings.json을 만들어서 global setting과 같은 입력값을 넣으면 작동이 됩니다. 하지만 각각의 개별적 세팅은 정상작동이 되지 않을 수 있습니다.

IDE

/

VSC

/

setting · 2023-12-13

2. Sequence embedding

Seq2Seq 중심 단어와 주변 단어를 통한 예측 기반의 학습법 ELMO 주변 단어를 보고 중심 단어를 예측하는 방법 Transformer 중심 단어를 보고 주변 단어를 예측하는 방법(학습 횟수가 많음) GPT <>으로 단어를 구분하고 n-gram을 통하여 단어를 나눠서 학습한다 skip-gram과 유사한 학습법 sub word들을 학습해 유사한 단어학습이 가능 BERT 기존의 LSA(Latent Semantic Analysis)는 문서에서 단어의 빈도를 기준으로 차원축소를 하는 방법론 -> 단어 의미 유추에 약함

AI

/

NLP

/

basic · 2023-12-12

1. Word embedding

Word2Vec 중심 단어와 주변 단어를 통한 예측 기반의 학습법 유사어 구별이 힘듬 단어의 빈도수에 영향을 많이 받음 새로운 단어학습시 전체학습이 필요 사전의 크기가 학습시간에 영향이 큼 CBOW 주변 단어를 보고 중심 단어를 예측하는 방법 Skip-gram 중심 단어를 보고 주변 단어를 예측하는 방법(학습 횟수가 많음) FastText <>으로 단어를 구분하고 n-gram을 통하여 단어를 나눠서 학습한다 skip-gram과 유사한 학습법 sub word들을 학습해 유사한 단어학습이 가능 GloVe(Global Vectors for Word Representation) 기존의 LSA(Latent Semantic Analysis)는 문서에서 단어의 빈도를 기준으로 차원축소를 하는 방법론 -> 단어 의미 유추에 약함 새로운 방법을 제안함(단어의 유사도를 고려) 윈도우 기반 동시 등장 행렬 앞뒤로 등장한 단어들을 테이블화 하여 행렬로 만듬 동시 등장확률 해당 행의 전체값에서 해당하는 값을 나눈값 손실함수 동시 등장확률과 유사하게 나올 수 있게 함 konlpy gensim

AI

/

NLP

/

basic · 2023-12-11

2. enefit

predict_energy_behavior_of_prosumers Overview 글쓰기 품질을 예측하기 위한 모델을 만드는 대회이다. 데이터는 키스트로크 로그 데이터로 이루어져 있다.(시계열) Description 글쓰기 과정을 정형데이터로 만들기가 쉽지 않다. 에세이별로 작성자의 특성(쉬는 타이밍, 수정법, …)을 파악하여 품질에 영향을 줄 수 있다. 하지만 실제는 결과물만 가지고 평가를 하게 되어서 실질적인 활용에 있어서는 고려해야할 사항이 많다. Evaluation 평가지표로는 MAE평가지표를 기반으로 사용한다. simple EDA 키스트로크 로그 데이터는 아래와 같이 구성이 된다. id는 에세이를 구별하는 인자 event_id는 해당하는 에세이에서 발생하는 서순을 확인하기 위한 인자 down_time은 해당 키는 누르는 시점의 시간 up_time은 해당 키를 떼는 시점의 시간 action_time는 up_time - down_time activity는 취한 액션이 어떠한 활동인지를 구별하는 인자 down_event, up_event는 어떤 키스트로크인지 구별하는 인자(단순한 문자는 q로 마스킹 처리됨) text_change는 해당 event를 통하여 변경된 logs를 나타내는 인자 cursor_position은 깜빡이는 커서가 현재 어디 있는지 나타내는 인자 word_count는 작성된 단어의 갯수 점수 데이터는 아래와 같이 구성이 된다. id는 에세이를 구별하는 인자 score는 에세이의 점수 키스트로크 로그의 info는 아래와 같이 결측값은 없다. 점수 데이터의 info는 아래와 같이 결측값은 없다. 키스트로크 로그의 describe는 아래와 같다. 점수 데이터의 describe는 아래와 같다. Review 1 XGBM weather datas installed_capacity 태양광 패널의 용량과 날씨 데이터가 결과에 영향을 미치는것을 알 수 있었다. Review 2

PROJECT PRACTICE

/

Kaggle · 2023-11-24

1. blog

블로그를 만든 기념으로 파이썬을 이용해서 블로그가 운영되는 형식에 맞춰서 파이썬 사용법을 연습해봄 main.py {% highlight python %} from module.Blog import Blog from module.Post import Post MAIN_TEXT = ‘’’ 블로그 글 작성 블로그 글 리스트 종료 ’’’ MAIN1_TEXT = [ “타이틀: “, “내용: “ ] MAIN2_TEXT = ‘’’ —————– 블로그 보기 블로그 편집 뒤로 돌아가기 ’’’ MAIN2_DETAIL_TEXT = ‘id를 입력해주세요: ‘ MAIN1_END_TEXT = ‘’’ 작성 완료했습니다. —————— ‘’’ class Main: def init(self, blog_data) -> None: self.blog_data = blog_data pass def call(self): while True: try: handler = Handler() post = Post() blog = Blog() (menu_num, input_data) = handler.get_input(text = MAIN_TEXT) input_data = int(input_data) if menu_num == “main”: if input_data == 1: (menu_num, input_datas) = handler.get_input(text = MAIN1_TEXT) self.blog_data = post.create(data= self.blog_data, title= input_datas[0], content= input_datas[1]) print(MAIN1_END_TEXT) elif input_data == 2: (menu_num, input_data) = handler.get_input(text = MAIN2_TEXT) blog.view_all(data= self.blog_data, state=”title”) input_data = int(input_data) elif input_data == 3: break else: print("다시 선택해주세요.") if menu_num == "main2": if input_data == 1: (menu_num, input_data) = handler.get_input(text = MAIN2_DETAIL_TEXT) elif input_data == 2: pass elif input_data == 3: pass else: print("다시 선택해주세요.") if menu_num == "main2_1": blog.view_all(data= self.blog_data, state="full", id=int(input_data)) (menu_num, input_data) = handler.get_input(text = "") except ValueError: print("숫자를 입력해주세요.") class BlogDataSetting: def init(self) -> None: self.max_id = self.__get_default_id() self.posts = self.__get_posts() pass def __get_default_id(self): return 0 def __get_posts(self): return [] class Handler: def get_input(self, text): if (text == MAIN_TEXT): print(text) return (“main”, input()) elif (text == MAIN1_TEXT): input_list = [] for txt in text: input_list.append(input(txt)) return (“main1”, input_list) elif (text == MAIN2_TEXT): print(text) return (“main2”, input()) elif (text == MAIN2_DETAIL_TEXT): return (“main2_1”, input(text)) else: return (“main”, input(“돌아가기”)) if name == “main”: blog_data = BlogDataSetting() main = Main(blog_data) main() {% endhighlight %} module/Blog.py {% highlight python %} class Blog(): “”” 전체 리스트 보기(id 기준), 태그 리스트 보기 “”” def init(self) -> None: super().init() pass def view_all(self, data, state="title", id=False): posts = data.posts print("-------------") for post in posts: if id: if id == post['id']: print(f"id: {post['id']}") print(f"타이틀: {post['title']}") if state == "full": post['view_count'] += 1 print(f"내용: {post['content']}") print(f"view: {post['view_count']}") print(f"like: {post['like']}") print(f"\t") else: print(f"id: {post['id']}") print(f"타이틀: {post['title']}") if state == "full": print(f"내용: {post['content']}") print(f"view: {post['view_count']}") print(f"like: {post['like']}") print(f"\t") print("-------------") {% endhighlight %} module/Post.py {% highlight python %} class Post(): def __init__(self) -> None: super().__init__() pass def create(self, data, title, content): data.max_id += 1 data.posts.append({ "id": data.max_id, "title": title, "content": content, "view_count": 0, "like": 0 }) return data def edit(): pass {% endhighlight %}

PROJECT PRACTICE

/

Python · 2023-11-06

5. Advance of deep learning

XAI explainable AI를 의미하며 Black box인 DL을 설명 가능하게 하는 기술을 의미한다. LIME Local Interpretable Model-Agnostic Explanations 예측하려는 값의 근처 데이터들을 해석 가능한 모델로 학습하여 분류기의 성능을 설명하는 기술 SHAP SHapley Additive exPlanations 머신러닝 설명기법으로 특성의 기여도를 계산하여 관측치를 설명하는 기술

AI

/

DL

/

basic · 2023-11-03

4. Models of deep learning

AI

/

DL

/

basic · 2023-11-02

3. Evaluation metrics of deep learning

mean_absolute_error(regression) mse라고 불리는 지표로 결과값과 예측값간의 차의 절대값 평균이다. {% highlight python %} from sklearn.metrics import mean_absolute_error mean_absolute_error(Y_test, pred_value) {% endhighlight %} mean_squared_error(regression) mse라고 불리는 지표로 가장 일반적으로 사용되는 값으로 결과값과 예측값간의 차의 제곱합의 절대값이다. {% highlight python %} from sklearn.metrics import mean_squared_error mean_squared_error(Y_test, pred_value) {% endhighlight %} accuracy_score(classification) 결과와 예측간의 정확도를 나타내는 지표이다. {% highlight python %} from sklearn.metrics import accuracy_score accuracy_score(Y_test, pred_value) {% endhighlight %} confusion_matrix(classification) 예측값과 결과값간의 값을 matrix로 나타낸값 {% highlight python %} from sklearn.metrics import confusion_matrix confusion_matrix(Y_test, pred_value) {% endhighlight %} classification_report(classification) {% highlight python %} from sklearn.metrics import classification_report classification_report(Y_test, pred_value) {% endhighlight %} precision -> 예측1(positive, type1) 정확도 recall -> 실제1(Type2) 정확도 F-1 Score precision, recall의 유사성 높으면 유사함(기하 평균) roc_auc_score(classification) {% highlight python %} from sklearn.metrics import roc_auc_score roc_auc_score(Y_test, pred_value, multi_class) {% endhighlight %} roc x축을 실제값이 1일때 예측값의 1의 비율, y축을 실제값이 0일때 예측값의 1의 비율로 하여 나타내지는 그래프를 의미한다. auc -> roc그래프에서 desity를 나타내고, 0.5~1의 값을 나타내며 높을수록 정확도가 높다 multi_class는 1대1 매칭은 ovo 1대 다 매칭은 ovr로 입력값을 받는다. silhouette_score(clustering) {% highlight python %} from sklearn.metrics import silhouette_score for i in range(): model = KMeans(n_cluster=i) model.fit() pred = model.predict() [].append(silhouette_score(, pred)) {% endhighlight %} 값이 높을 수록 효과가 좋은 결과

AI

/

DL

/

basic · 2023-11-01

2. EDA of deep learning

고속 옵티마이저 모멘텀 최적화 경사 하강법에 모멘텀을 추가한 형태(초기에는 느린데 모멘텀을 추가로 가져서 종단 속도까지 빠르게 도달함) {% highlight python %} optimizer = keras.optimizers.SGD(learning_rate=0.001, momentum=0.9) {% endhighlight %} 네스테로프 가속 경사 모멘텀에 미리 한 스탭 나아간 것을 추가하여 진동을 감소시킴 {% highlight python %} optimizer = keras.optimizers.SGD(learning_rate=0.001, momentum=0.9, nesterov=True) {% endhighlight %} 전이학습 {% highlight python %} .layers[:-1] -> 최종 층을 제외하고 추출 = keras.models.clone_model() .set_weights(.get_weights()) {% endhighlight %}

AI

/

DL

/

basic · 2023-10-31

1. Theory of deep learning

인공신경망 퍼셉트론(Perceptron) TLU(Threshold Logic Unit)이라고도 불리며 입력들에 대하여 출력을 구하는 유닛이다. 출력은 활성화 함수에 의하여 발생이 되며 heavyside, sgn과 같은 함수가 활용된다. 다중 퍼셉트론 하나의 층으로 구성이된 퍼셉트론은 XOR과 같은 문제를 해결할 수 없고 이를 해결하기 위해 2개 이상의 층으로 구성이된 퍼셉트론을 만드는것이다. 역전파(backpropagation) 다중 퍼셉트론의 학습법으로 효율적인 계산법은 경사 하강법을 사용할 수 있다. 역전파 기법의 서순은 아래와 같이 작용한다. 미니배치들로 1epoch가 될때까지 반복 각 미니배치들을 순차적으로 1개의 레이어씩 진행함 출력층에 도달(정방향 계산) 오차 측정 순처적으로 되돌아가며 가중치를 계산 경사 하강법으로 가중치를 변경 활성함수의 필요성 활성함수가 없으면 모든 층이 선형성을 가지기 때문에 비선형성을 가지는 복잡한 문제를 해결 할 수 없다. 심층신경망(DNN) 은닉층을 2개 이상 가지는 신경망(다중 퍼셉트론) 선형회귀 가중치, 편향을 가지고 단일 선형 또는 다중 선형 회귀 분석을 만들 수 있다. 가설 설정 제공 되는 데이터를 통하여 관계를 유추해 수식으로 예측해보는것을 가설이라 한다. 손실 함수 일반적으로 MSE와 같은 방법을 사용 경사 하강법 손실 함수를 최소화하기 위해 편미분을 취해 찾아가는 방법 epoch 순전파, 역전파를 1회 끝까지 완료하는 횟수 batch size 전체의 데이터에서 매개변수 업데이트에 사용할 데이터들의 집합 iterator 1 epoch를 위해 필요한 batch의 수 순환신경망(RNN) Recurrent Neural Network로 순차적(sequential) 학습의 한 종류이다. 과거의 학습에 Weight를 가하여 현재 학습에 반영하는 신경망 단점 중요한 정보가 오래될 경우 영향력을 크게 상실할 수 있다. 이를 보완하기 위해 LSTM(Long Short-Term Memory)와 간소화된 GRU(Gated Recurrent Unit)가 있다. 합성신경망(CNN) Convolutional Neural Network로 이미지 처리에 효과적인 학습법이다. 아래의 두가지 구조로 구성된다. Convolution Layer kernel/filter를 이용해서 데이터를 특성 맵(feature map)으로 만드는것 스트라이드(stride) kernel/filter가 특성 맵을 만들때 이동하는 거리를 의미한다. 패딩(padding) 특성맵의 크기 축소를 해소하는 방법으로 빈공간으로 채우는 방법 Polling Layer 특성 맵을 풀링 연산(max, average, …)을 통하여 다운 샘플링하는 것 그래프신경망(GNN) Graph Neural Network로 그래프 데이터를 활용하는 신경망이다. 비정형의 복잡한 형태로 인하여 분석이 힘들다. 가중치 초기화 Weight initialization은 학습 초기 가중치를 결정하는 방법으로 효율적이지 못한값을 제공할 경우 미분값의 소실, 발산이 생길 수 있다. 아래의 초기화 기법들은 이와 같은 문제를 효율적으로 다룰 수 있다. He ReLU와 같은 함수를 사용 ReLU 함수는 양수값에서 수렴하지 않으며 속도도 빠르지만 훈련도중 가중치가 음수를 가지게 되면 기울기가 0이 되는 Dying ReLU이슈가 있다. LeakyReLU는 위의 이슈를 해결하기 위하여 음수도 기울기를 가하는 방법이다. $LeakyReLU(z) = max(\alpha z, z)$ RReLU는 정해진 범위의 $\alpha$을 랜덤으로 선택하는것 PReLU는 $\alpha$가 학습하면서 결정이되며 데이터가 적으면 과적합 위험이 있다. ELU는 $z < 0$에서 $\alpha (e^z-1)$을 가지게되며 계산이 느리지만 학습력이 좋다. 글로럿 tanh, logistic, softmax와 같은 함수 또는 활성화 함수 사용 X 인풋과 아웃풋 노드 수의 평균에 의존적이다. 르쿤 SELU와 같은 함수를 사용 인풋의 노드 수에 의존적이다. 배치 정규화 가중치 초기화는 초기의 가중치를 통하여 이후의 안정성을 제공하지만 완전히 안정적이지는 않다. 그렇기 때문에 배치 정규화를 이용해서 은닉층 내부에서 안정화를 제공할 수 있다. 활성화 함수 전후에 연산을 추가하여 진행되며 배치 정규화를 진행하기 위해서는 입력의 평균과 표준 편차를 필요로 한다. 각 층의 입력의 값을 활용하기 때문에 테스트를 할때는 전체 훈련결과를 이용하여 정규화를 진행한다. 그래디언트 클리핑 그래디언트 폭주가 발생하지 않게 역전파에서 임계값을 초과하지 않게한다. 전이학습 transfer learning이라고도 하며 이전에 학습한 층을 재활용하는 것이다. 상위층의 경우 재사용시 다른 모델에 최적화 되어 있기때문에 하위층을 주로 활용한다.

AI

/

DL

/

basic · 2023-10-30

5. Advance of machine learning

gridSearchCV 하이퍼 파라미터를 다양하게 활용하여 최적의 값을 찾는 방법 {% highlight python %} from sklearn.model_selection import GridSearchCV param_grid = [ {‘’ : []}, {‘bootstrap’ : [False]} ] model = grid_search = GridSearchCV(model, param_grid, cv=5) grid_search.fit() grid_search.best_params_ grid_Search.best_estimator_ grid_Search.cv_results_ {% endhighlight %} best_params_ 최적의 파라미터 제공 best_estimator_ 최적의 파라미터 모형 제공 cv_results_ iter한 객체로 전체 하이퍼파라미터 별 평가 확인가능 Text Mining Process corpus 정의(수집) text cleaning(불용어 제거, 형태 통일) tokenization(분석 단위 결정) modeling visualization 다중공산성 correlation이 높은 것을 의미하고 선형 모델에서 다중공산성은 문제가 될수 있고 tree 모델에서는 크게 상관이 없다. 빼는것을 결정할때는 피어슨 상관계수를 사용 \[\tfrac{corr_{1,2}}{\rho_1 \rho_2}\] 추천시스템 사용자에게 추천정보를 제공하는 방법 contents based filtering 나의 프로필 정보를 가지고 추천하는 방식 collaborative filtering(충분한 정보에서 우세) 나의 평점 데이터를 가지고 추천하는 방식 item-based collaborative filtering 해당 사용자의 선호 item과 유사한 item 추천방식 user-based collaborative filtering 해당 사용자의 선호 item과 유사한 선호도를 가진 user의 item을 추천하는 방식 explicit data 평점이 명확하게 작성이 된 데이터 user-oriented-neighborhood model 평점을 기준으로 사용자간의 유사도를 확인해서 높은 평점을 가진 사용자의 추천을 추천 item-oriented-neighborhood model 평점을 기준으로 유사한 아이템을 사용자에게 추천하는 방식 implicit data 평점이 명확하지 않아 타겟을 소비한 횟수로 구성된 데이터 latent factor model 확인된 평점의 특성을 토대로 미확인 평점을 추론해내는 방법으로 사용자와 아이템간의 평점을 나타내는 행렬을 두개의 latent factor로 나누어 학습하는 matrix factorization 기법을 사용한다. matrix factorization $n$명의 사용자와 $i$개의 아이템이 존재할때 $n \times i$ 행렬을 임의의 factor($f$)개를 정하여 $f \times n$, $f \times i$의 행렬로 만드는것 ALS(alternating least squares) 구현예제 두가지 인풋을 가지는 2차행렬에서 하나의 인풋을 상수로 취급하고 계산하고 다른 인풋을 상수로 취급하고 반복하는 로직을 일컷는다. matrix factorization에 따라 사용자 행렬을 $X$ 아이템 행렬을 $Y$라고 하면 평점행렬과 원소는 아래와 같이 표현된다. \[R=XY^T \qquad r_{ni} = x_n^Ty_i\] 이것을 토대로 학습을 위한 loss function을 만들어야 하는데 이것은 아래와 같이 표현되며 $\lambda$는 과적합을 방지하기 위해 추가 됩니다. \[min_{x^{'},y^{'}}\sum_{n,i}(r_{ni}-x_n^Ty_i)^2 + \lambda(\sum_u||x_n||^2+\sum_i||y_i||^2)\] ALS에 따라 $y_i$를 상수로 취급하여 loss function의 최소값을 찾기 위하여 편미분을 취하여 $x_n$의 최소값을 찾아가면 \[-2\sum_i(r_{ni}-x_n^Ty_i)\times y_i+2\lambda x_n\] \[\lambda x_n = \sum_i(r_{ni}-x_n^Ty_i)\times y_i\] \[\lambda x_n = \sum_i(-x_n^Ty_i)\times y_i+\sum_i r_{ni}y_i\] $(-x_n^Ty_i)$이 스칼라 값이라서 전치행렬을 취해도 값이 같다. \[x_n(\lambda + \sum_i y_i \times y_i^T) = \sum_i r_{ni}y_i\] \[x_n(\lambda I + Y Y^T) = R_{n}Y\] \[x_n = R_{n}Y(Y Y^T + \lambda I)^{-1}\] 이와 같이 $x_n$가 최소가 되는 행렬을 찾았지만 이렇게 계산을 할 경우 implicit data의 문제에 봉착하게 된다. 이러한 missing value(미평가 점수)를 위하여 선호하는지 안하는지 알기위하여 $R_n$을 선호도 $p_{ni}$와 신뢰도 $c_{ni}$로 분할 한다. \[p_{ni} = {\left\{\begin{matrix} 1 \quad R_{ni} \;is \; known \\ \quad 0 \quad R_{ni} \;is \; unknown \end{matrix}\right.}\] \[c_{ni} = 1+ \alpha r_{ni}\] 이와같이 분할한 수식을 loss function의 편미분과 같이 다시 계산하면 \[x_n = C_{n}Y(Y Y^T + \lambda I)^{-1}\] 가 나오게 되며 ALS 로직을 사용할 수 있다.

AI

/

ML

/

basic · 2023-10-27

4. Models of machine learning

AI

/

ML

/

basic · 2023-10-26

3. Evaluation metrics of machine learning

mean_absolute_error(regression) mse라고 불리는 지표로 결과값과 예측값간의 차의 절대값 평균이다. {% highlight python %} from sklearn.metrics import mean_absolute_error mean_absolute_error(Y_test, pred_value) {% endhighlight %} mean_squared_error(regression) mse라고 불리는 지표로 가장 일반적으로 사용되는 값으로 결과값과 예측값간의 차의 제곱합의 절대값이다. {% highlight python %} from sklearn.metrics import mean_squared_error mean_squared_error(Y_test, pred_value) {% endhighlight %} accuracy_score(classification) 결과와 예측간의 정확도를 나타내는 지표이다. {% highlight python %} from sklearn.metrics import accuracy_score accuracy_score(Y_test, pred_value) {% endhighlight %} confusion_matrix(classification) 예측값과 결과값간의 값을 matrix로 나타낸값 {% highlight python %} from sklearn.metrics import confusion_matrix confusion_matrix(Y_test, pred_value) {% endhighlight %} classification_report(classification) {% highlight python %} from sklearn.metrics import classification_report classification_report(Y_test, pred_value) {% endhighlight %} precision -> 예측1(positive, type1) 정확도 recall -> 실제1(Type2) 정확도 F-1 Score precision, recall의 유사성 높으면 유사함(기하 평균) roc_auc_score(classification) {% highlight python %} from sklearn.metrics import roc_auc_score roc_auc_score(Y_test, pred_value, multi_class) {% endhighlight %} roc x축을 실제값이 0일때 예측값의 1의 비율(FPR), y축을 실제값이 1일때 예측값의 1의 비율(TPR)로 하여 나타내지는 그래프를 의미한다. auc -> roc그래프에서 desity를 나타내고, 0.5~1의 값을 나타내며 높을수록 정확도가 높다 multi_class는 1대1 매칭은 ovo 1대 다 매칭은 ovr로 입력값을 받는다. silhouette_score(clustering) {% highlight python %} from sklearn.metrics import silhouette_score for i in range(): model = KMeans(n_cluster=i) model.fit() pred = model.predict() [].append(silhouette_score(, pred)) {% endhighlight %} 값이 높을 수록 효과가 좋은 결과

AI

/

ML

/

basic · 2023-10-25

2. EDA of machine learning

ordinal encoder 어떠한 컬럼값이 object형일 경우 학습을 시키기 힘들기 때문에 값들을 0, 1, … 으로 넘버링하는 방법(높고 낮음의 연관성이 있을때) replace() {% highlight python %} data[] = data[].replace({"name": num}) {% endhighlight %} OrdinalEncoder {% highlight python %} from sklearn.preprocessing import OrdinalEncoder ohe = OrdinalEncoder() train_ = ohe.fit_transform(train([])) # 분류된 데이터가 도출됨 {% endhighlight %} factorize {% highlight python %} pd.factorize() {% endhighlight %} onehot encoder 어떠한 컬럼값이 object형일 경우 학습을 시키기 힘들기 때문에 값들을 0과 1로 이루어진 데이터로 변환하는 방법 train, test 카테고리 차이가 없을때 쉽게하는법 {% highlight python %} pd.get_dummies(data=[], columns=[], drop_first=False) {% endhighlight %} data는 참조가 되는 데이터들을 나타낸다. columns는 데이터중 onehotencoding을 하려는 컬럼값들을 나타낸다. drop_first는 encoding하여 분할되는 컬럼들중 첫번째를 넣을지 뺄것인지 정하는것으로 선택적이다. train, test 카테고리 차이가 있을때 진행하는법 {% highlight python %} from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(sparse=False) train_ = ohe.fit_transform(train([])) # 분류된 데이터가 도출됨 ohe.categories_ # 카테고리 값이 도출됨 {% endhighlight %} StandardScaler 평균이 0 분산이 1인 값으로 데이터를 표준화하는 작업으로 보통 정규분포의 경우에서 성능향상을 위해 사용이 된다.(outlier 영향 강함) {% highlight python %} from sklearn.preprocessing import StandardScaler scaler = StandardScaler() df_scaled = scaler.fit_transform(df) {% endhighlight %} min max scaler 데이터를 0~1의 값으로 변환을 하게 되며 정규분포가 아닐경우 사용하게 된다. {% highlight python %} from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() df_scaled = scaler.fit_transform(df) {% endhighlight %} robust scaler 해당하는 값에서 중앙값을뺀값을 IQR로 나누어 만들어지며, ourlier 영향이 적게 스케일링이 가능하다. {% highlight python %} from sklearn.preprocessing import RobustScaler {% endhighlight %} train/test data split 데이터가 학습및 학습결과 확인을 위하여 데이터를 분할해주는 작업이다. train_test_split {% highlight python %} from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split(X ,y, test_size=0.2, random_state=54) {% endhighlight %} random_state는 일종의 시드값으로 변화가없으면 계속 같은 값이 나온다. StratifiedShuffleSplit 특정 <data_>를 동일한 비율로 나누고 싶을때 사용 {% highlight python %} split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=54) for train_idx, test_idx in split.split(X, ): X_train = X[train_idx] X_test = X[test_idx] y_train = y[train_idx] y_test = y[test_idx] {% endhighlight %} random_state는 일종의 시드값으로 변화가없으면 계속 같은 값이 나온다. Kfold StratifiedKfold cross validation issue train/test로 나누어서 진행함에 있어서 보면 매번 결과가 뒤죽박죽으로 나올 수 있다. 이러한 이유는 train, test에 해당하는값이 치우쳐진 값으로 가질 수 있기 때문이며 이를 위해 아래와 같이 여러갯수로 분할하여 시행하는것이 더욱 정확하다고 볼 수있다. {% highlight python %} from sklearn.model_selection import KFold kf = KFold(n_splits=5, random_state=100) for train_index, test_index in kf.split(range(len(data))): {% endhighlight %}

AI

/

ML

/

basic · 2023-10-24

1. Theory of machine learning

Linear Regression 종속변수와 독립변수간에 관계를 예측하는 모델로 선형적 모델을 가지고 종속변수와 독립변수의 관계를 도출하는 방법이다. 변수가 증가함에 따라 시간 복잡도가 많이 증가한다. 일반적으로 아래의 정규방정식을 통하여 계산이 가능하지만 \[\theta = (X^TX)^{-1}X^Ty\] 역행렬이 존재하지 않거나 하는 경우 유사 역행렬인 \[\theta = X^+y\] 를 이용하여 계산을 하며 이는 sklearn에서 기본으로 제공이 된다.(np.linalg.pinv()를 통하여 직접 계산도 가능) Ridge Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다. $MSE(\theta)$에 L2 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다. \[J(\theta) = MSE(\theta) + \alpha \tfrac{1}{2}\sum_{i=1}^n\theta_i^2\] Lasso Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다.Ridge회기는 중요도가 낮은 변수를 규제하지만 Lasso는 0이 될수있다. $MSE(\theta)$에 L1 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다. \[J(\theta) = MSE(\theta) + \alpha \sum_{i=1}^n|\theta_i|\] Elastic Net Regression(규제형) 학습 모델의 가중치를 컨트롤하기 위한 모델로 규제항을 포함하여 훈련하고 성능평가에서 사라진다.Ridge, Lasso를 융합시킨 형태이다. $MSE(\theta)$에 L2 norm(규제항)을 추가된 모형으로 아래와 같은 loss function을 가진다.(r=0에서 Ridge r=1에서 Lasso가 된다.) \[J(\theta) = MSE(\theta) + r\alpha \sum_{i=1}^n|\theta_i| + \tfrac{1-r}{2}\sum_{i=1}^n\theta_i^2\] Early Stopping Regression(규제형) 경사하강법과 같은 반복적 학습에서 과적합되기전에 멈추게 하는 방법 Gradient Descent 비용함수를 최소화하여 계산복잡도를 감소시킨 방법이다. 시간 및 정확도를 위하여 scaler를 통하여 특성을 유사하게 만들어야한다. $\eta$는 학습률을 의미한다. \[cost \, function := MSE(\theta) = \tfrac{(\hat{y}-y)^2}{m}\] \[\tfrac{\partial}{\partial\theta}MSE(\theta) = \tfrac{2X^T(X\theta-y)}{m}\] \[\theta^{next step} = \theta - \eta\tfrac{\partial}{\partial\theta}MSE(\theta)\] Batch Gradient Descent 전체 데이터셋의 에러를 통한 기울기로 한번만 모델의 파라미터를 업데이트하는 방법 장점 연산횟수가 적다. 전체 데이터셋을 활용하기 때문에 안정적으로 수렴한다. 단점 지역 최적화에 걸리기 쉽다. 스텝마다 학습량이 많아 시간이 오래걸린다. Stomatic Gradient Descent 매 스탭마다 무작위 샘플을 구하여 미분을 취하는 방법 장점 알고리즘이 빠르다. 단점 최적의 값을 구하기 힘들다. 샘플 데이터를 활용하기 때문에 불안정적으로 수렴한다. Mini-Batch Gradient Descent 임의의 작은 샘플 세트를 활용하여 기울기를 구하는 방법 장점 batch-size를 키우면 SGD보다 안정적이다. 단점 정해진 샘플의 사용으로 SGD보다 지역 최적화에 걸리기 쉽다. PolynomialFeatures 다항 회기방법으로 변수들을 이용해 고차항을 만드는 방법 n이 변수의 갯수, d가 차원일때 아래와 같은 수의 변수가 생성이된다. \[\tfrac{(n+d)!}{n!d!}\] Logistic Regression 종속변수와 독립변수간에 관계를 예측하는 모델로 linear regression과 다르게 이항, 다항과 같이 항을 기준으로 classification을 한다. odds 성공확률과 실패 확률의 비율 \[odds = \tfrac{p(y=1|x)}{1-p(y=1|x)}\] logit odds에 log를 취한 함수 \[logit(p) = log(\tfrac{p}{1-p})\] sigmoid function logit 함수의 입력과 출력을 바꾼함수 \[p(X) = \tfrac{1}{1+e^{-\beta X}}\] logistic function sigmoid 함수 만들어진 예측 모델 Logistic Regression은 $x$가 변할때 $y$가 1이 되는 경향성을 따지는 모델로서 아래와 같은 확률에서 시작된다. \[p(X) = Pr(y=1|X)\] 우리가 parameter Estimation을 통하여 구하려고 하는 sigmoid의 $\hat{\beta}$는 이상 적으로 2가지 경우로 나뉜다. $y=1$이라서 $\hat{Pr(y=1|X)}$이 1에 수렴하는 경우 $y=0$이라서 $1-\hat{Pr(y=1|X)}$이 1에 수렴하는 경우 1.의 경우 최대 확률은 $\prod_{s \, in \, y_i=1} p(x_i)$ 2.의 경우 최대 확률은 $\prod_{s \, in \, y_i=0} (1-p(x_i))$ 종합적인 최대 확률은 $L(\beta) = \prod_{s \, in \, y_i=1} p(x_i) \times \prod_{s \, in \, y_i=0} (1-p(x_i))$ 가 된다. 이 수식을 단순화 하면 아래의 수식이 된다. \[L(\beta) = \prod_s p(x_i)^{y_i} \times \prod_s (1-p(x_i))^{1-y_i}\] loss function을 활용해 최적의 함수를 찾아야하는 위의 수식은 미분에 있어서 쉽지 않다. 그래서 log를 이용한 log likelihood 함수를 만들고 음수를 취해주고 전체 샘플수로 나눠주면 loss function을 만들 수 있다. \[J(\beta) = -\tfrac{1}{n}(\sum_{i=1}^n y_i log(p(x_i)) \times \sum_{i=1}^n (1-y_i) log(1-p(x_i)))\] \[\tfrac{\partial}{\partial\beta_j}J(\beta) = \tfrac{1}{n}(\sum_{i=1}^n p(x^{(i)})-y^{(i)})x_j^{(i)}\] SoftMax Logistic Regression의 경우 binary classification의 방법을 위하여 고안이 되었으나 multinomial classificaion에 활용할 수 있게 하는 방법이 SoftMax 기법이다. 이는 도출된 경향성 점수를 $s(y_i) = \tfrac{e^{y_i}}{\sum e^y}$로 총합 1의 확률로 만들게된다. 이러한 확률을 이용하여 크로스 엔트로피(주어진 정답의 불확실성의 정도) 비용함수가 최소가 되게한다. Decision Tree Tree 구조로 형성된 의사결정 분류 알고리즘 데이터의 회전성에 취약하여 PCA(주성분 분석, 차원축소)를 사용하면 좋다 CART(Classification And Regression Tree) tree가 subset을 나누는데 있어 gini가 작은 subset을 만드는 방법으로 greedy algorithm이다. loss function은 아래와 같다. \[J = \tfrac{m_{left}}{m}G_{left}+\tfrac{m_{right}}{m}G_{right}\] Naive Bayes 특성들 사이의 독립을 가정하는 베이즈 정리를 이용한 확률 분류기 Bayes Theorem 어떠한 기존의 확률을 토대로 새로운 데이터의 확률을 구하는 방법 \[P(c\|x)=\tfrac{P(x\|c)P(c)}{P(x)}\] elements $P(c|x)$ posterior probabillity $P(x)$ predictor prior probabillity 어떠한 기존의 발생 확률 $P(c)$ class prior probabillity 어떠한 특성을 가질 확률 $P(x|c)$ likelihood 특성에서의 발생이 될 확률 Support Vector Machine(SVM)(SVC,SVR) 카테고리들이 있을때 데이터들의 사상된 공간의 경계중 가장 큰 너비를 가진 경계를 찾는 방법 (복잡, 작거나 중간 데이터셋에 적합, scaler를 하면 효율 증가) (SVC는 kernel을 통해 PolynoialFeature없이도 고차원 적용가능, 실제로 변수가 만들어지지 않아 속도빠름) margin 서로 다른 두가지 클래스의 데이터에서 어떠한 선으로 구분을 할경우 해당 선의 너비를 의미한다. support vectors margin에 해당하는 위치에 놓여있는 elements를 의미한다. RBF(Radial Basis Fuction) Kernel 방사형 기저 함수라 불리며 비선형 데이터에서 차원을 높여서 margin을 설계하는 방법 Clustering 흩어져있는 원소들을 군집화하여 유사한 데이터끼리 묶는 방식으로 하는 비지도학습 K Nearest Neighbors(KNN) 새로운 데이터를 입력받을때 가까운 데이터들의 분포에 따라 통계적으로 분류를 하는 알고리즘 K means 임의의 centroid를 지정후 근접합 데이터를 군집화 한다음 centroid를 재설정하는것을 반복하여 군집을 구하는 방법(변수들의 스케일링을 하면 효과가 좋다) DB Scan 밀도 기반 군집화 기법으로 범위내에 있는 샘플들의 갯수가 군집화가 되는 기준이다. 가우시안 혼합 모델(GMM) Gaussian Mixture Model은 분류가될 집합이 가우시안 분포로 되어있다고 가정하여 클러스터를 구성하는 확률 모델이다. 흩어져있는 원소들을 군집화하여 유사한 데이터끼리 묶는 방식으로 하는 비지도학습 Bagging VS Boosting bagging 분산을 감소시키는 방법으로 복원 추출을 통해 n개의 샘플을 만드는 boostraping을 통해 나온 샘플을 학습시켜서 선형 결합한것 boosting 편항을 감소시키는 방법으로 weak learner를 생성해서 구한 error를 토대로 가중치를 가해 error를 줄이는 방법이다. Decision Tree ensemble ensemble 우수한 모델들에서 나온 결과를 선형적으로 결합하여 성능을 향상하는 방법 Random Forest bagging을 사용한 알고리즘으로 모든 변수를 기반으로 Tree 생성 Extra Trees bagging을 사용하지 않는 random forest 알고리즘 AdaBoost boosting을 사용하여 샘플의 가중치를 더해 순차적 학습을 하는 알고리즘 Decision Tree Gradient Boosting Gradient Boosting은 미분을 통해 Residual을 줄이는 방향으로 weak learner들을 결합하는 방법(과적합 이슈의 발생) Extreme Gradient Boosting(XGB) Regularization과 다양한 loss function을 지원하여 과적합을 감소시킨 방법 Light Gradient Boosting histogram-based/GOSS/EFB와 같은 알고리즘으로 학습데이터를 감소시켜 속도를 향상시킨 방법 GBM은 Level-wise한데 LGBM은 Leaf-wise해서 시간은 적게 걸려도 깊은 트리형으로 문제없이 작업한다. GOSS(Gradient-based One-Side Sampling)으로 infomation gain을 계산할때 기울기(가중치)가 작은 변수에 승수 상수로 데이터를 증폭시킴 (데이터가 적으면 과적합 위험) Categorical Gradient Boosting 범주형 변수를 위한 알고리즘으로 one-hot encoding사용시 증폭되는 메모리 이슈를 보완하였음 (oblivious Decision Tree, Feature Combination) Natural Gradient Boosting 각 예측값에 대한 신뢰도를 도출해주는 알고리즘으로 시간이 오래걸리는 단점이 있음 차원축소 대부분의 데이터는 고차원으로 구성이 되어있어도 가까이에 있는 경향이 많아 저차원 공간으로 투영(projection)과 같은 차원축소 기법을 통해 해결할 수 있다. 매니폴트 고차원에서 휘어져있는 형태로 고차원에서 가까워 보이지만 실제로는 멀리있는 데이터를 효과적으로 차원 축소 하는 방법 주성분 분석(PCA) Principal Component Analysis는 보편적인 차원축소 기법으로 분포도를 최대한 유지하는 방향으로 차원을 축소하는 방법이다.(평균이 0인 StandardScaler가 필요하다, sklearn은 자체 지원) sklearn은 explained_variance_ratio를 통하여 축소한 차원에서 얼마나 분산의 손실이 발생했는지 알 수 있다. 특잇값 분해(SVD) Singular Value Decomposition은 주성분을 찾는 방법으로 $m \times n$인 행렬 $A_1$에 대한 특잇값 분해는 $U_1\sum_1V_1^T$이다. 이는 유사역행렬을 구하는 방법과 유사하지만 유사역행렬의 $\sum$은 $k \times k$로 변동성이 있지만 SVD는 $m \times n$이다.(thin SVD와 같이 축소기법을 사용하면 크기가 감소하기도 한다.) SVD를 통하여 구한 $V$의 각 열을 순서대로 $c_1, c_2, …$로 주성분의 축을 구할 수 있다. $c_1, c_2, …$의 갯수를 통하여 투영하려는 차원을 정할 수 있다. \[X_{d-proj} = XW_d\] 지역선형임베딩(LLE) Locally Linear Embedding은 투영을 하지않고 매니폴드를 활용하는 기법이다. 이웃 원소와의 선형성을 측정하여 국부적 관계가 보존되는 저차원을 표현함 t-SNE 비슷한 샘플과 비슷하지 않은샘플로 구분하여 차원을 축소하는 방법

AI

/

ML

/

basic · 2023-10-23

How to use socket

NETWORK

/

basic · 2023-10-20

1. essay quality

kaggle-linking-writing-processes-to-writing-quality Overview 글쓰기 품질을 예측하기 위한 모델을 만드는 대회이다. 데이터는 키스트로크 로그 데이터로 이루어져 있다.(시계열) Description 글쓰기 과정을 정형데이터로 만들기가 쉽지 않다. 에세이별로 작성자의 특성(쉬는 타이밍, 수정법, …)을 파악하여 품질에 영향을 줄 수 있다. 하지만 실제는 결과물만 가지고 평가를 하게 되어서 실질적인 활용에 있어서는 고려해야할 사항이 많다. Evaluation 평가지표로는 RMSE평가지표를 기반으로 사용한다. 이번대회는 특이하게 Efficiency RMSE 평가지표도 활용하여 추가 수상의 기회가 있다. Data Collection Procedure Keystroke Data Collection Procedure SAT에서 사용하는 글쓰기 프롬프트를 기반으로 하여 글쓰기를 하였다. 4종류의 다른 프롬프트가 사용이되어서 편차가 발생할 수 있다. 30분이내에 3문단에 200단어이상으로 구성한 에세이를 작성해야한다. 또한 작성자가 2분이상 활동이 없거나 프롬프트 이외의 작업을 하려고 하면 경고창이 뜨게했습니다. Keystroke Logging Program 키스트로크 정보를 수집하기위해 JS를 이용하여 만든 프로그램을 통하여 수집을 했다. JS에서 지원하는 addEventListener를 이용하여 수집을 하여 키 입력, 마우스 조작에 대한 값을 수집하게 된다. 이벤트는 순서대로 이벤트 ID에 라벨링을 하며 값을 가지게된다. Keystroke Measures Production Rate 글쓰기 생산 비율은 글쓰기 과정에서 시간을 기준으로한 특징(문자, 단어, 문장, …)을 나타내는 비율을 나타낸다. 글쓰기 과정에서 분당 특징(문자, 단어, …)의 갯수를 나타내는 비율 글쓰기가 완성된 상태에서 분당 특징(문자, 단어, …)의 갯수를 나타내는 비율 Pause 일시 중지행동은 2초의 임계값을 가지는 IKI(key down 입력 간의 간격)가 있는것을 의미한다. 이러한 일시중지 활동을 활용하여 아래와 같은 해석이 가능하다. 일시중시 횟수(전체, 분당) 일시중지 시간 비율(전체 시간 대비) 일시중지 길이(전체 일시중지 시간의 평균) 특징(단어, 문장, …)들 사이에서 일시중지 길이 또는 빈도수 Revision 글쓰기에서 수정과 관련된 항목이다. 삭제는 어디서든 단어를 지우는 행위를 칭하며, 삽입은 글쓰기의 마지막 위치가 아닌 위치에서 진행하는 입력을 칭한다. 삭제 횟수(전체, 분당) 삽입 횟수(전체, 분당) 삭제한 길이(단어수) 삽입한 길이(단어수) 삭제 시간 비율(전체 시간 대비) 삽입 시간 비율(전체 시간 대비) 글쓰기 완료 vs 글쓰기 진행에서 변경된 단어수의 비율 비교 글쓰기 완료 후 수정이 진행된 횟수와 길이 수정이 이루어진 직후 이루어진 수정의 횟수, 길이 현재 지점에서 발생한 수정의 횟수 다른 지점에서 발생한 수정의 횟수 Burst 일시 중지 및 수정없이 지속적으로 글쓰기를 진행하는것을 버스트라고 한다. P-버스트는 일시중지를 기준으로 분리가 되는것, R-버스트는 수정을 기준으로 분리가 되는 글씨기 행위이다. P-버스트의 숫자(전체, 분당) R-버스트의 숫자(전체, 분당) P-버스트의 시간 비율(전체 시간 대비) R-버스트의 시간 비율(전체 시간 대비) P-버스트의 길이(단어수) R-버스트의 길이(단어수) Process Variance 글쓰기의 분산은 글쓰는 과정에서 작성자가 구간별로 유창하게 작성하는것을 보기 위한 기준이다. 5 또는 10과 같이 특정값을 기준으로 전체를 분할하고 분할된 구역에서 생성된 문자의 수(전체, 분당)를 의미한다. simple EDA 키스트로크 로그 데이터는 아래와 같이 구성이 된다. id는 에세이를 구별하는 인자 event_id는 해당하는 에세이에서 발생하는 서순을 확인하기 위한 인자 down_time은 해당 키는 누르는 시점의 시간 up_time은 해당 키를 떼는 시점의 시간 action_time는 up_time - down_time activity는 취한 액션이 어떠한 활동인지를 구별하는 인자 down_event, up_event는 어떤 키스트로크인지 구별하는 인자(단순한 문자는 q로 마스킹 처리됨) text_change는 해당 event를 통하여 변경된 logs를 나타내는 인자 cursor_position은 깜빡이는 커서가 현재 어디 있는지 나타내는 인자 word_count는 작성된 단어의 갯수 점수 데이터는 아래와 같이 구성이 된다. id는 에세이를 구별하는 인자 score는 에세이의 점수 키스트로크 로그의 info는 아래와 같이 결측값은 없다. 점수 데이터의 info는 아래와 같이 결측값은 없다. 키스트로크 로그의 describe는 아래와 같다. 점수 데이터의 describe는 아래와 같다. keystroke EDA Production Rate 문자, 단어, 문단등의 상황에서의 갯수와 비율을 살펴본다. Production Rate(character) 문자의 갯수를 따지는 행위를 보면 각 액션에서 text_change가 어떻게 되었는지를 확인하면 볼 수 있다. text_change를 살펴보면 q로 마스킹 된 값, copy&paste와 같이 여러문자를 다루는 “ => “로 구분하는값, Move행위를 통하여 문자들이 이동한 값, 특이값으로 크게 4종류로 구분을 할 수 있다. 이것이 삭제를 하는 행위인지 작성을 하는 행위인지를 확인하기 위하여 logs에 새로운 칼럼을 만드는데 remove, move, cut과 같은 행위는 삭제를 하는 행위로 취급하여 text_change의 길이를 넣고, 작성을 하는 행위는 input, move, paste와 같은 행위로 취급하여 text_change의 길이를 넣었다. move와 같은 행위는 삭제와 작성을 동시에 행하는 작업이기 때문에 두가지 종류에 같이 포함이 된다. 위의 작업을 진행하여보면 문제가 발생하게 된다. \n과 기타 특수문자가 여러개의 문자로 인식되는것이다. 그래서 전처리고 simple_text_change라는 column을 만들어서 \n과 기타 특수문자를 q로 마스킹하는 작업을 진행하고 분류를 하는 작업을 진행하게 되었다. 위의 문자의 변화를 구분하게 됨으로 인하여 우리는 문자의 갯수와 비율을 살펴 볼 수 있게 되었다. 하지만 아직 확장된 개념의 단어, 문단에 대한 이해는 조금 더 EDA를 진행해야 알 수 있다. Production Rate(word) Pause 다른 키스트로크와 다르게 가장 직관적인 탐색이 가능한 기법이다. IKI가 2초 이상인것이 pause이기 때문에 이전의 down_time을 down shift를 행하여 현재의 down_time과 비교를 했을때 2초이상의 차이가 나면 is_pause라는 column을 추가로 생성해 True값을 넣어주면서 시작을 한다. Pause(count) 생성된 is_pause columns을 sum, 시간에 대하여 섹션을 나눠서 sum을 진행하면된다. Pause(rate) event_id의 시작과 끝의 시간 차이를 통하여 실제 작업시간을 확인하고 실제작업시간으로 일시중지한 시간의 합을 나눠서 구한다. Pause(length) is_pause에 해당하는 값들의 시간을 수치적으로 분석한다(mean, max, min, …) Pause(per state) 단어의 경우 전, 후에 q의 입력이 있는지 문장의 경우 전, 후에 space의 입력이 있는지 문단의 경우 전, 후에 \n의 입력이 있는지 위의 케이스별로 빈도수와 길이를 구한다. Revision 삭제의 경우 판단하기가 쉬우며 Production Rate단에서 생성한 삭제된 단어가 존재할 경우 is_deletion을 True로 이루어진 column을 만들면 된다. 삽입의 경우 판단하기가 쉽지 않다. 첫번째로 알아야하는것이 현재 내 커서의 위치가 마지막이 아닌지를 확인하고 Production Rate단에서 input에 해당하는 부분이 존재하는지 확인을 하면 된다. 하지만 이번 대회에서 데이터를 확인해본 결과 작성도중 맨뒤에 스페이스를 놔두고 그 직전에 입력을 하는 등 입력을 하는 위치가 신뢰성이 조금 떨어지는것이 확인 되어서 2가지 가설을 세워 보았다. 작성자가 실수를 한것이다. 맨뒤의 스페이스는 자동으로 지워지는 프롬프트를 사용한것이다. 이것은 cumsum을 이용한 누적글자수와 현재의 커서 위치를 분석하여 커서가 어디에 위치하는지를 분석해보고 스페이스 이후에 revision이 발생하면 스페이스를 제거하는 로직을 구성해 보았으나 오히려 정상적으로 작동하지 않은것을 확인하게 되었습니다. 이후 데이터를 수동으로 추적해본 결과 스페이스가 지워지지않음을 확인하게 되어서 작성자가 맨뒤에 스페이스가 있는것을 잊고 작업을 했음을 알 수 있었습니다. 그렇기 때문에 작성자가 실수한것을 고려하여 revision을 진행할지 아니면 고려하지 않고 진행할지 방향이 두가지로 나뉘어지게 되었습니다. Revision(deletion) is_deletion을 sum으로 전부 합한 값, per minute Revision(insertion) is_insertion을 sum으로 전부 합한 값, per minute Revision(deletion length) is_deletion일때 문자 삭제 columns의 수의 합 Revision(insertion length) is_insertion일때 문자 생성 columns의 수의 합 Revision(deletion rate) is_deletion일때 시간의 합을 전체시간으로 나눈값 Revision(insertion rate) is_insertion일때 시간의 합을 전체시간으로 나눈값 Revision(revisioned character) 문자 생성 columns의 수의 합과 문자 제거 column의 수의 합을 column으로 생성 Revision(revision after producted) current_cursor의 위치가 max_character의 위치와 같으면서 최대값인 이후에 진행된 event들에서 발생한 revision들의 횟수와 길이 Revision(revision after revision) is_deletion or is_insertion의 이후에 연속으로 발생한 revision의 횟수, 길이 Revision(revision in same place) current_cursor를 down diff로 값을 받아서 값이 변경하지 않았 했으면서 event가 Nonproduction가 아닌 revision이 발생하는 경우의 횟수현재 지점에서 발생한 수정의 횟수. 하지만 직전값을 인식하는 방식의 경우 올바르게 작동하지 않을 수 있기때문에 추가적으로 확인이 필요함 Revision(revision in different place) current_cursor를 down diff로 값을 받아서 값이 변경을 했으면서 event가 Nonproduction(기타 키입력, 마우스 클릭) revision이 발생하는 경우의 횟수. 하지만 직전값을 인식하는 방식의 경우 올바르게 작동하지 않을 수 있기때문에 추가적으로 확인이 필요함 Burst Burst(p number) is_pause간의 거리가 1이상인 burst의 숫자(is_pause.sum + 1), 분당 카테고리화 하여 is_pause.sum + 1 Burst(r number) is_revision간의 거리가 1이상인 burst의 숫자(is_revision.sum + 1), 분당 카테고리화 하여 is_revision.sum + 1 Burst(p rate) is_pause의 시간의 합을 전체 시간으로 나눠준 값을 1에서 뺀값 Burst(r rate) is_revision의 시간의 합을 전체 시간으로 나눠준 값을 1에서 뺀값 Burst(p length) is_pause간의 상태에서 단어의 변화량의 합 Burst(r length) is_revision간의 상태에서 단어의 변화량의 합 Process Variance Process Variance(per state) 글쓰기의 분산은 글쓰는 과정에서 작성자가 구간별로 유창하게 작성하는것을 보기 위한 기준이다. 5 또는 10과 같이 특정값을 기준으로 전체를 분할하고 분할된 구역에서 생성된 문자의 수(전체, 분당)를 의미한다. Review

PROJECT PRACTICE

/

Kaggle · 2023-10-06

basic shell command

OS

/

basic · 2023-10-05

1. AI research

EDA를 공부하고 실습을 위하여 아카이브 논문 사이트를 활용하여 분야별로 논문의 기법 및 트렌드 등을 확인한다. EDA1 arxiv에서 가져온 데이터에서 필요한 데이터 필터링 EDA2 papers with code에서 논문들 구분항목 추출 EDA3 arxiv에서 가져온 데이터에서 필요한 데이터 papers with code로 항목 구분 EDA4 데이터 가시화 및 시도 내역 PPT

PROJECT PRACTICE

/

EDA · 2023-09-21

3. 종합탐색(1)

개요 지금까지 파이썬을 이용한 몇몇가지 기능들을 공부했고 내용을 확립하기 위하여 간단한 프로젝트를 진행하기로 했다. 시리와 같은 AI 봇은 아니지만 pandas, tts, stt, 크롤링까지 지금까지 배운것들을 토대로 간단하게 챗봇느낌의 프로그램을 제작해보았다. 내용 자료 파트에서 참고하여 보면 아래와 같이 구성이 되어있다. proj | |— main.py |— const.py |— bip.mp3 |— /module — |— api.py — |— data_search.py — |— speech_service.py 기본적인 프로세스는 main.py에 변동성이 없는 데이터는 const.py에 그외 중복적으로 작동되는 함수들은 사용처 별로 정리하여 module폴더에 구성하였다. main/Timo/waitInput stt를 활용하기 때문에 입력을 받아서 컨트롤하는 함수가 필요함을 느껴서 만들게 되었으며, bip이라는 인자를 이용해서 stt의 입력을 받을 준비가 되어 있는지 사용자가 알 수 있게 만들었습니다. main/Timo/sst_classifier 로직을 관장하는 주된 함수로 제작하였으며, 로그인, 로그아웃, 검색, 날씨, 미세먼지, 게임, 수위 조사에 접근하여 핸들링하는 것을 가능하게 한다. 검색, 날씨 미세먼지의 경우 XX 검색 또는 검색XX와 같이 사용자에 따라서 사용법이 다를 수 있기에 두가지 모두 가능하게 했습니다. 검색의 경우는 조금 더 나아가 XXX XX 검색과 같이 여러 키워드 검색을 지원합니다. main/Timo/__sst_classifier_error sst_classifier를 통하여 분류가 되지 않을때 접근하게 되며 다시 명령을 기다리는 상태가 된다. main/Timo/__sst_data_error api와 crawling과 같은 데이터 검색을 진행할때 서버오류나 기타 오류들이 발생하면 접근하게 되며 맨처음 상태로 돌아가게 됩니다. main/Timo/login 로그인을 하게 되면 접근하게 되며 추가적인 핸들링이 필요할 경우를 대비하여 함수화 하였습니다. main/Timo/logout 로그아웃을 하게 되면 접근되며 추가 핸들링이 필요하면 작성하게된다. main/Timo/naver_search 네이버 크롤링을 사용하여 검색결과를 제공하여 준다. main/Timo/weather_search 날씨를 검색하여 주는 함수로 현재시간을 기준으로 해당 지역의 기상정보를 제공해준다. main/Timo/pm_search 미세먼지를 검색하여 주는 함수로 검색 방식에는 여러가지로 나뉘게 된다. 단순히 서울에 대한 검색도 가능하며 서울 강남구와 같은 세부 지역도 가능하다. 로직으로는 지명을 토대로 좌표를 구하여 좌표를 기준으로 해당하는 지역의 지역번호를 받게되며, 해당 지역번호로 미세먼지 정보를 받아서 상세분류 작업을 통하여 사용자에게 제공하게 된다. main/Timo/follow_up_game 끝말 잇기 게임으로 컴퓨터와 단어를 주고 받게 되는데 단어는 일부 제한량을 두어서 컴퓨터도 패배할 수 있게 제작했다. main/Timo/dam_check 요즘 기습적인 폭우와 같은 문제로 인하여 침수사고가 많이 발생하고 있어 댐정보를 통하여 비교적 미리 확인이 가능하지 않을까 해서 제작을 하게 되었으며, 댐마다 실시간 저수율과 방류량을 알 수있다. module/api/Request html, api 정보를 받아서 json의 형태로 변환시켜준다. module/api/SgisApi/geoCoding 지역명을 받아서 해당지역을 좌표화해 반환해준다. module/api/SgisApi/transformation 좌표계가 사용하고자 하는좌표계와 다를경우 좌표계를 변조할 필요가 있는데 해당 변조를 도와준다. module/api/MetroApi 미세먼지 정보를 받아서 돌려주는 함수이다. module/api/KorDictApi 사전에 단어가 있는지, 해당하는 글자로 시작하는 단어가 있는지 확인해주는 함수이다. module/api/DamApi 댐정보를 받아오기 위한 함수이다. module/data_search/Searching/bs_search bs를 반복적으로 사용하기위하여 만든 함수이다. module/data_search/Searching/selenium_search 셀레니움을 사용할 것을 대비하여 만든 함수이다. module/speech_service/SpeechService/stt stt를 제공하는 함수이다. bip 인자를 통해 bip음을 출력하기도 한다. module/speech_service/SpeechService/tts tts를 제공하는 함수이다. 자료 링크

PROJECT PRACTICE

/

Crawling · 2023-09-14

2. 멜론차트

웹크롤링을 연습하기 위해서 멜론 1~50위의 내역을 추출해 csv파일로 저장하여 보았다. {% highlight python %} import requests from bs4 import BeautifulSoup as BS import pandas as pd headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’} url = “https://www.melon.com/chart/index.htm” data = requests.get(url=url, headers=headers) soup = BS(data.text,’html.parser’) datas = soup.select(“.service_list_song .wrap_song_info a”) rows=[] columns=[] for index, i in enumerate(datas): if index / 4 < 50: if index % 4 == 0: print(f”순위: {int(index / 4)+1}”) print(f”제목: {i.text}”) columns.append(str(int(index / 4)+1)+”위”) columns.append(i.text) elif index % 4 == 1: print(f”가수: {i.text}\n”) columns.append(i.text) elif index % 4 == 2: rows.append(columns) columns=[] data = pd.DataFrame(columns=[“순위”, “제목”, “가수”],data=rows) data.to_csv(“melon_rank.csv”, encoding=”utf-8-sig”, index=False) {% endhighlight %} 웹크롤링을 연습하기 위해서 셀레니움을 이용하여 월별로 멜론 1~50위의 내역을 추출해보았다. {% highlight python %} from bs4 import BeautifulSoup as BS from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time url = “https://www.melon.com/chart/month/index.htm” if name == “main”: driver = webdriver.Chrome() driver.get(url) WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#conts > div.calendar_prid > div’))) a = driver.find_element(By.CSS_SELECTOR, value=’#conts > div.calendar_prid > div’) a.click() a = driver.find_elements(By.CSS_SELECTOR, value=’#conts > div.calendar_prid > div > div > dl > dd.month_calendar > ul > li’) for month_index, month in enumerate(a): month.click() time.sleep(2) data_raw = driver.page_source soup = BS(data_raw, ‘html.parser’) title_datas = soup.select(“#lst50 > td:nth-child(6) > div > div > div.ellipsis.rank01 > span > a”) singer_datas = soup.select(“#lst50 > td:nth-child(6) > div > div > div.ellipsis.rank02 > span”) real_singer_datas = [] for singer_data in singer_datas: b=singer_data.select(‘a’) a=”” try: a = b.text except: for i in b: a += f”{i.text}, “ real_singer_datas.append(a) else: real_singer_datas.append(a) for index, i in enumerate(title_datas): print(f”{month_index+1}월 {index+1}위 노래: {i.text} 가수: {real_singer_datas[index]}”) time.sleep(5) driver.quit() {% endhighlight %}

PROJECT PRACTICE

/

Crawling · 2023-09-07

1. 라이브러리 설명

bs4 참조 selenium 참조

PROJECT PRACTICE

/

Crawling · 2023-09-06

가상환경 설정

venv(normal setting, makedir it self) {% highlight shell %} python -m venv <venv_name> source <venv_name>/bin/activate # mac source <venv_name>/Script/activate # git bash with window Scripts\activate.bat # cmd with window deactivate {% endhighlight %} pipenv(not makedir it self) {% highlight shell %} pip install pipenv python -m pipenv –python <version> python -m pyenv versions # 여기에 버전들 깔림 python -m pipenv shell exit {% endhighlight %} pipenv –venv pipenv –py pipenv run python # 가상환경으로 파이썬 실행하기 jupyter setting {% highlight shell %} pip install jupyter pip install ipykernel python -m ipykernel install — user — name 가상환경이름 jupyter kernelspec list jupyter kernelspec uninstall 가상환경이름 {% endhighlight %}

PYTHON

/

Advance · 2023-09-05

bs4 & selenium

PYTHON

/

Library · 2023-09-04

Matplotlib & Seaborn

PYTHON

/

Module · 2023-09-01

Pandas

Pandas(Python Data Analysis Library) 정형데이터 조작에 최적화된 라이브러리 행렬로 이루어진 테이블 형태구조의 데이터 연산이 뛰어나다 json,html,csv,xlsx,sql등등 다양한 정형화 데이터를 통일하여 표현가능 기본구조 Pandas는 1차원 구조와 2차원 구조를 가지고 있으며 아래와 같다. 1차원 구조 pd.Series([1,3,5,np.nan, 78]) 2차원 구조 pd.DataFrame( data=np.arange(1, 49).reshape(12, 4), index=np.arange(12), columns=[“X1”,”X2”,”X3”,”X4”] ) data= 구조를 만드는데 사용할 데이터 2차원구조 필요 index= 구조를 만드는데 사용할 인덱스명 data= 구조를 만드는데 사용할 컬럼명 pandas의 내부 구조는 numpy array기반으로 생성해서 universal function 같은 numpy array의 기능을 사용할 수 있다. Fancy indexing <pd.data>.<columnName> == <pd.data>[<columnName>] <pd.data>의 해당 컬럼 기반의 시리즈 추출 <pd.data>.index[<num>] <pd.data>에서 <num>번째 인덱스이름 가져오기 <pd.data>.loc[<indexName>, <columnName>] <pd.data>의 (<indexName>, <columnName>)에 해당하는 값을 추출(차원 구조로 작성시 해당 차원의 값이 전부 나옴) <indexName>임이 중요하다 n을 넣으면 n-1이 아님 <pd.data>.iloc[<indexNum>, <columnNum>] loc과 작동이 같으나 Name이 아닌 Number를 기준으로 한다. mask 조건식을 적용하면 조건의 만족여부를 확인가능한 mask가 생성되며 해당 마스크로 데이터를 가공할 수 있다. <pd.data>[<pd.data>기반 조건] <pd.data>에서 조건에 해당하는 데이터 추출 기본함수 <pd.data>.index <pd.data>의 인덱스값 추출 <pd.data>.columns <pd.data>의 컬럼값 추출 <pd.data>.values <pd.data>의 값 추출 <pd.data>.apply(<func>) <pd.data>의 값을 <func>을 통해 가공하여 추출 <pd.data>.str.contains(pat=<string>, regex=Bool) <pd.data>에 <string>이 있는지 확인 regex=True(default) <pd.data>[<columnName>] <pd.data>의 해당 컬럼 기반의 시리즈 추출 <pd.data>.head(<num>) <pd.data>의 인덱스 0에서 <num>(Null: 5)개 추출 <pd.data>.tail(<num>) <pd.data>의 인덱스 뒤에서 <num>(Null: 5)개 추출 <pd.data>.info() <pd.data>의 전반적인 정보를 제공 <pd.data>.describe() <pd.data>의 전반적인 통계치를 제공 <pd.data>.groupby(<columns_name>) <pd.data>에서 수치데이터를 <columns_name>의 기준으로 분별한다. pd.to_numeric(<pd.data>, error=<state>) <pd.data>를 숫자로 변환한다. error=”ignore”: 숫자가 안되면 원본 error=”coerce”: 숫자가 안되면 NaN error=”raise”: 숫자가 안되면 에러발생 pd.to_datetime(<pd.data>) <pd.data>를 시간타입의 값으로 변환한다. <pd.data>.dt.hour 과같이 원하는 값을 추출할 수 있다. <pd.data>.sort_values(by=<pd.columnName>, ascending=False) <pd.data>의 값에서 <pd.columnName>를 기준으로 정렬 ascending = True: 오름차순 False: 내림차순 Datafram 합치기 pd.merge(<pd.data>, <pd.data>, on=”A”, how=”outer”) how=”outer”, “inner”, “left”, “right” <pd.data>끼리 join을 이용한 합치기 pd.merge_asof(<pd.data>, <pd.data>, on=”A”, direction=”backword”) direction= backword는 left에 매칭하여 빈공간없이 합치기 forword는 left에 매칭하여 빈공간있게 합치기 nearest는 left에 매칭하여 근처값으로 합치기 pd.concat([<pd.data>, <pd.data>], axis=<num>) <pd.data>들을 <num>차원으로 합치기 <pd.data>.reset_index(drop=Null) <pd.data>의 인덱스를 재정의 drop= True는 기존 인덱스 삭제 False는 기존 인덱스 남겨둠 pivot table 특정 컬럼을 기준으로 통계량을 측정하여 판다스 테이블화 하는것 pd.pivot_table(data=<pd.data>, index=[<columnName>], values=[<columnName>], aggfunc=[<option>,<option>]) index에 입력한 <columnName>을 인덱스로 하고 values에 입력한 <columnName>이 columns가 되는 테이블을 만듬 aggfunc에 있는 <option>에 해당하는 값으로 column을 만듬 e.x. sum, mean, count 등등… unpivot pivot화 된 데이터를 풀어헤치는 행위 stack은 기준이 없을때 melt는 기준이 있을때 용이 (with)stack stack -> columns to index / unstack -> index to columns <pd.data>.stack(level=[0,…], dropna=True).reset_index().set_axis([], axis=1) level은 columns의 최상단부터 0으로 매겨지며 해당하는 columns를 index로 보내고 인덱스를 리셋하여 다시 네이밍을 하는 방법 (with)melt <pd.data>.melt(id_Vars=None, value_vars=None, var_name=None, value_name=”value”) id_Vars를 기준으로 데이터를 풀어헤치며 데이터를 value, columns를 variable로 분배한다. 외부 Datafram 불러오기 colab {% highlight python %} from google.colab imort drive drive.mount(‘/content/drive’) data = pd.read_csv(“/dir/data.csv”) {% endhighlight %} window {% highlight python %} data = pd.read_csv(“/dir/data.csv”) {% endhighlight %}

PYTHON

/

Library · 2023-08-31

Numpy

PYTHON

/

Library · 2023-08-30

멀티 스레드와 멀티 프로세스

threading&multiprocessing threading 스레드를 늘려서 다른 코드들이 동시에 작동하는것 처럼 만들어주는 라이브러리 class threading.Thread(target=None, name=None, args=(), kwargs={}, *, daemon=None) *** 스레드 생성을 하는 클래스선언 target 매개변수는 스레드에 함수를 할당할 수 있다. name 매개변수는 스레드에 이름을 할당할 수 있다. args 매개변수는 스레드에 가변 매개변수들을 할당할 수 있다. kwargs 매개변수는 스레드에 키워드 가변 매개변수들을 할당할 수 있다. demon 매개변수는 True/false를 받으며 스레드를 데몬 스레드로 만들어서 메인스레드와 운명을 같이 하게 된다. .start() *** 스레드 객체의 작동 메서드(.run() 메서드를 작동시킨다.) .run() 스레드 서브 클래스를 만들때 추가적으로 작동 하고 싶은것을 선언할 수있다. .join(timeout=None) *** 스레드가 종료 될때까지 이후의 코드를 작동하지 않는다. timeout 매개변수는 스레드에 시간제한을 줄 수 있으며, 시간제한을 초과하면 스레드를 멈춰줘야한다. .is_alive() 스레드가 작동중인지 확인 할 수 있으며, 작동시 True를 반환한다. 파이썬의 스레드는 하나의 프로세스에서 여러개의 스레드를 병렬 처리한다. 이때 공유되는 자원들을 동시에 변형가하면 충돌을 발생해 무시될 수 있다. 다음에 소개 할 threading.Lock() 클래스는 이를 해결해준다. class threading.Lock() *** 스레드의 락 기능을 선언하는 클래스 .acquire(blocking=True, timeout=- 1) *** 락 기능이 작동중인지 작동중이지 않은지 수 있는 메서드. blocking 매개변수가 True이면 락을 작동(코드 멈춤)하고 True를 반환하고, False이면 락을 작동시키지 않고(코드 진행) 추후에 True/False를 반환합니다.(default: true) .release() *** 스레드의 락을 해제하며 해제된 스레드에서 작동시 런타임 오류발생. with구문을 활용하여 acquire()과 release()를 한번에 관리가능하다. .locked() 스레드가 잠겨있으면 True반환. 락을 사용하는데 A함수와 B함수를 사용하고 A함수가 B함수를 재사용하는 재귀형식의 스레드활용시에는 acquire의 사용에 있어 오류를 발생할 수 있는데 이때 사용하는것이 RLock이다. class threading.RLock() 스레드의 락 기능을 선언하는 클래스 .acquire(blocking=True, timeout=- 1) 락 기능이 작동중인지 작동중이지 않은지 수 있는 메서드. blocking 매개변수가 True이면 락을 작동(코드 멈춤)하고 True를 반환하고 재사용시에 1을 반환한다. False이면 락을 작동시키지 않고(코드 진행) 추후에 True/False를 반환합니다.(default: true) .release() 스레드의 락을 해제하며 해제된 스레드에서 작동시 런타임 오류발생. with구문을 활용하여 acquire()과 release()를 한번에 관리가능하다. .locked() 스레드가 잠겨있으면 True반환. 이외에도 많은 함수들이 존재하지만 주로 사용하는 함수만 정리했으며 추가적인 자료는 아래를 참고한다. 원문 {% highlight python %} from threading import Thread def subthread(): worker = Thread(target=subthread) # worker에 서브쓰레드 할당 worker.daemon = True # 메인쓰레드가 종료될때 sub도 종료됨(선택) worker.start() # worker 실행 worker.join() # worker가 끝날때까지 대기(선택) {% endhighlight %} --- ## **multiprocessing** --- 프로세스를 늘려서 다른 코드들을 동시에 작동시켜주는 라이브러리 multiprocessing의 경우 threading보다 더 다양한 클래스와 메서드들을 가지고 있다. > **class multiprocessing.Pool(processes=None)** \*** > * 멀티 프로세스중 초기 지정한 프로세스수를 활용하는 클래스선언 > * **processes** 매개변수는 멀티프로세스에서 사용할 프로세스의 갯수를 나타내며 os.cpu_count()를 활용하면 나내 컴퓨터의 최대 프로세스수를 알 수있다. 최대치를 넘는 프로세스는 오류를 유발할 수 있다. {% highlight python %} def subprocess(): if __name__ == '__main__': with Pool(5) as p: print(p.map(subprocess, )) {% endhighlight %} > **class multiprocessing.Process()** \*** > * 멀티 프로세스중 스레드와 유사한 작동방식을 가지며 각각의 프로세스를 관리하는 클래스선언 > [참조](/study/pythonModule/1_threading&multiprocessing#threading) {% highlight python %} import multiprocessing as mp def subprocess(): if __name__ == "__main__": worker = mp.Process(target=subprocess, args=(...)) # worker에 서브프로세스 할당 worker.daemon = True # 메인쓰레드가 종료될때 sub도 종료됨(선택) worker.start() # worker 실행 mp.current_process() # PID값을 반환해줌(선택) worker.is_alive() # PID값을 반환해줌(선택) worker.terminate() # 강제종료(선택) worker.join() # worker가 끝날때까지 대기(선택) {% endhighlight %} > **class multiprocessing.Queue(maxsize=0)** \*** > * 멀티 프로세스중 프로세스수간 FIFO 데이터 전송을 위한 클래스선언 > * **maxsize** 매개변수는 큐의 최대사이즈를 입력받으며 0은 제한없음을 의미한다. > > **.get()** \*** > * 큐에 있는 값을 하나 받아온다. > > **.put()** \*** > * 큐에 값을 하나 넣는다. > **class multiprocessing.Pipe(duplex=None) return(conn1, conn2)** \*** > * 멀티 프로세스중 프로세스수간 한쌍으로 데이터 전송을 위한 클래스선언 > * **duplex** 매개변수는 True일 경우 양방향 통신 False일 경우 단방향 통신(conn1: reciver, conn2: sender)으로 활용된다. > > **conn.send()** \*** > * 파이프에 값을 넣는다. > > **conn.recv()** \*** > * 파이프에서 값을 받아온다. > **class multiprocessing.Lock()** \*** > * 락을 관리하는 멀티 프로세스중 스레드 락과 유사한 작동방식을 가지며 각각의 프로세스를 관리하는 클래스선언 > [참조](/study/pythonModule/1_threading&multiprocessing#threading) > **class multiprocessing.Manager()** \*** > * 멀티 프로세스의 자원을 안전하게 관리하기 위한 클래스선언 > * 다음과 같은 지원을 한다.(더 있음) > * .list() > * .dict() > * .Lock() > * .RLcok() > * .Array() 이외에도 많은 함수들이 존재하지만 주로 사용하는 함수만 정리했으며 추가적인 자료는 아래를 참고한다. [원문](https://docs.python.org/ko/3/library/multiprocessing.html)

PYTHON

/

Module · 2023-08-29

Bootstrap

Bootstrap 파이썬 프레임워크는 아니지만 파이썬을 이용한 작업중 html과 css가 사용되는곳에서 사용이 됨으로 분류를 다음과 같이함 CSS를 보조해주는 툴이라고 생각하면 됨 홈페이지를 참고하여 html에 script 태그를 넣으면 됨

PYTHON

/

Library · 2023-08-28

Django init summary

PYTHON

/

Framework

/

Django · 2023-08-25

고급 활용

삼항연산자 단순 True or False 인 상황에서 가독성을 높이는데 좋음 {% highlight python %} if : else: ---------------- if else {% endhighlight %} # **리스트 컴프리헨션(list comprehension)** --- 리스트를 만드는데 있어서 효과적으로 제작하는방법 {% highlight python %} list1 = [] for i in range(1, 11): list1.append(i) ---------------- list1 = [i for i in range(1, 11)] {% endhighlight %} # **삼항연산자 & 리스트 컴프리헨션** --- {% highlight python %} = [ for in if ] {% endhighlight %} # **딕셔너리형 합치기** --- {% highlight python %} = {'am': 10} = {"a": 20, "b": 50} .update() ---------------- = {'am': 10} = {"a": 20, "b": 50} = {**, **} {% endhighlight %} # **정규표현식** --- [참고사이트](https://regexr.com/) {% highlight python %} import re {% endhighlight %} re.match(\<str\>, \<data\>) 문자열 처음부터 검색(객체) re.search(\<str\>, \<data\>) 문자열 전체 검색(객체) re.findall(\<str\>, \<data\>) 문자열 전체를 검색(list형) re.finditer(\<str\>, \<data\>) 문자열 전체를 검색(iter형)(객체) re.fullmatch(\<str\>, \<data\>) 완벽한 일치하는 검색(객체) \<object\>.group() 객체에서 매칭된 문자열을 반환 \<object\>.start() 객체에서 매칭된 문자열의 시작 위치 \<object\>.end() 객체에서 매칭된 문자열의 끝 위치 \<object\>.span() 객체에서 매칭된 문자열의 시작과 끝(tuple형) re.sub(\<from\>, \<to\>, \<data\>) data에서 \<from\>을 \<to\>로 변환

PYTHON

/

Basic · 2023-08-24

웹 크롤링

크롤링 기본용어 스크래핑은 데이터를 수집하는 모든 작업 크롤링은 웹상에 흩어져 있는 데이터를 수집하는 행위 파싱은 웹상에 흩어져 있는 데이터를 선별하여 수집하는 행위 robots.txt 해당 홈페이지가 크롤링 허용범위의 권고안을 기입해 놓은 파일 User-agent:* : 브라우저 전부 접근 허용 Disallow: / : 모든 디렉토리 비허용 Allow: /$ : 첫번째 페이지는 허용 HTTP HTTP(Hypertext Transfer Protocal)은 서버와 클라이언트가 인터넷상에서 데이터를 주고 받는 프로토콜으로 아래의 작동방식을 가진다. Request : HTTP요청 GET : 정보를 요청하기 POST : 정보를 입력하기 PUT : 정보를 업데이트하기 DELETE : 정보를 상제하기 Response : HTTP응답 URL은 자원의 위치를 알기위한 프로토콜 parameter는 시스템의 작동에 영향을 주는 데이터 HTML & Tag HTML(Hypertext markup language)은 웹페이지를 구조화하기 위한 마크업 언어이다. Tag는 html에서 사용하는 요소를 의미하고 아래와 같은 태그를 주로 활용한다. <title> : 브라우저 타이틀 <head> : 문서의 속성을 설정하는 태그 <body> : 브라우저 바디의 최상위 <div> : 기본적인 구분자 <ul>(unordered list) : *으로 구분하는 리스트 <ol>(ordered list) : 숫자로 구분하는 리스트 <li> : 리스트 나열 <table> : 테이블 구조의 기본 형 <tr> : 테이블의 행을 만드는 형식 <td> : 테이블의 열을 만드는 형식 ID & Class ID는 일반적으로 고유의 객체를 찾을때 사용된다. Class는 일반적으로 유사한 객체들을 찾을때 사용(css에서 공통적으로 사용됨)

PYTHON

/

Basic · 2023-08-23

동시성과 병렬성

thread & multiprocess thread 하나의 프로세스가 하나의 스레드로 구성이 되는데 멀티 스레드를 구성 할 수있다. 멀티 스레딩은 동시성 프로그래밍으로 동시에 실행하는것처럼 보이게 한다. {% highlight python %} import threading def subthread(): worker = threading.Thread(target=subthread) # worker에 서브쓰레드 할당 worker.daemon = True # 메인쓰레드가 종료될때 sub도 종료됨(선택) worker.start() # worker 실행 worker.join() # worker가 끝날때까지 대기(선택) {% endhighlight %} ## **multiprocess** --- 일반적으로 하나의 프로그램은 하나의 프로세스이지만 고도화된 프로그램과 같은 경우 멀티 프로세스를 사용할 수있다. 멀티 프로세싱은 **병렬성 프로그래밍**으로 작업이 동시에 실행된다. {% highlight python %} import multiprocessing as mp def subprocess(): if __name__ == "__main__": worker = mp.Process(target=subprocess, args=(...)) # worker에 서브프로세스 할당 worker.daemon = True # 메인쓰레드가 종료될때 sub도 종료됨(선택) worker.start() # worker 실행 mp.current_process() # PID값을 반환해줌(선택) worker.is_alive() # PID값을 반환해줌(선택) worker.terminate() # 강제종료(선택) worker.join() # worker가 끝날때까지 대기(선택) {% endhighlight %}

PYTHON

/

Basic · 2023-08-22

라이브러리 이해

PYTHON

/

Basic · 2023-08-21

할당과 복사

할당과 복사 할당은 객체가 같은 메모리를 사용하는 것으로 메모리 사용량을 줄일 수 있지만 변수값 변경시 생각지도 못한 변수도 변경이 될 수 있다. {% highlight python %} x = [] y = x {% endhighlight %} 복사는 객체가 서로 다른 메모리를 사용하기 때문에 객체가 가지고 있는 주소도 서로 다른 값을 가지게 된다.(메모리 사용 증가) {% highlight python %} x = [] y = x.copy() # normal case —————————– import copy x = [[],[]] y = copy.deepcopy(x) # multi devision case {% endhighlight %}

PYTHON

/

Basic · 2023-08-18

파이썬 설치 및 가상환경 설정

python With. Window 다운로드 페이지 win+r → python → ok! With. Mac 다운로드 페이지 command+space → terminal → python3 → ok! VSCode With. Window IDE setting 다운로드 페이지 With. Mac IDE setting 다운로드 페이지 virtual env With. Window {% highlight shell %} python -m venv → create venv \Scripts\activate → activate venv pip list → pkg list pip install deactivate {% endhighlight %} ## **With. Mac** --- {% highlight shell %} python3 -m venv → create venv source .//Scripts/activate → activate venv deactivate {% endhighlight %}

PYTHON

/

Basic · 2023-08-17

예외와 에러처리

예외&에러 처리 예외처리 프로그램 실행중에 발생하는 에러를 미연에 방지하기 위한 방법 {% highlight python %} try: # 예외 발생 가능성 있는 코드 except: # 예외 발생시 실행 else: # 예외 미발생시 실행 finally: # 리소스와 같은 관리가 필요할때 # 최종적으로 항상 실행할 코드 --------------------------level up try: # 예외 발생 가능성 있는 코드 except ValueError as e: # 에러명을 지정시 여러 except문 작성가능 print("", e) except ZeroDivisionError: print("", e) {% endhighlight %} **예외 계층 구조** : 예외를 발생할때 해당 구조에 따라 예외를 발생시킬 수 있다. [예외 계층 구조 참조](https://docs.python.org/ko/3/library/exceptions.html#exception-hierarchy) ## **에러제작** --- **내장 에러 수정**은 기존의 예외 계층 구조를 따르는 에러의 경고문을 커스텀 할때 사용 {% highlight python %} # state1에서 "에러 메시지"라는 에러를 발생 if : raise Exception("에러 메시지") # state1에서 ValueError를 발생하고 "에러 메시지"라 부른다 ... if : raise ValueError("에러 메시지") except ValueError as e: print("", e) {% endhighlight %} **커스텀 에러 제작**은 기존의 예외 계층 구조 이외의 나만의 에러 경고문을 커스텀 할때 사용 {% highlight python %} class (Exception): def __init__(self): super().__init__("에러 설명") ... if : raise except as e: print("", e) {% endhighlight %}

PYTHON

/

Basic · 2023-08-16

클래스

클래스 클래스(class)는 각각의 개념화된 사물들을 객체화(object) 할 수 있고 이러한 객체들이 속성을 공유하는 방식을 지칭한다. 클래스 또한 함수와 같이 재사용성에 있어서 효과적이고, 유지보수에 유용하다. 클래스는 아래의 특징을 가진다. 상속(inheritace) : 상위의 개념과 하위의 개념간에 개념을 상속해주고 계승하는것을 의미한다. 상위의 개념은 superclass, 하위의 개념은 subclass라고 칭한다. e.x. 포유류(superclass) 고양이, 삵(subclass) 다양성(polymorphism) : 하위의 개념들이 상위의 개념에서 받은 개념 이외에 다양성을 가지는 것을 의미한다. e.x. 상위 개념(짖는다) 하위개념 (왈왈, 짹짹) 추상화(abstraction) : 클래스의 내부를 보지 않아도 내부의 변수와 같은것들을 보지 않아도 알수 있는것을 의미한다. 은닉화(encapsulation) : 클래스 내부에 변수(class variable) 기능(class method)을 가지게 되는것을 의미한다. 클래스가 사용하는 메서드는 다음과 같이 나눠질 수 있다. 인스턴스 메서드 : 첫번째 파라미터로 self를 가진다. 클래스 메서드 : 클래스의 속성에 접근하는것으로 cls파라미터 사용 정적 메서드 : 메서드가 인스턴스와 독립적으로 사용될때 사용 매직 메서드 : 클래스는 생성자(constructor)(init)를 이용하여 기본형을 정의한다. (str)은 문자열화를 하여 서로 다른 객체 간의 정보를 전달하는 데 사용된다. (repr)은 인간이 이해할 수 있는 표현으로 나타내기 위한 것입니다. 우선 순위는 __str__이 __repr__보다 높다. 추상 메서드 : 자식 class에서 필수적으로 구현해야하는 것을 지정 각각의 매서드들은 아래와 같이 사용이된다. {% highlight python %} class (): data0 = 0 def __init__(self, data1, data2): self.data1 = data1 ... def instance_method1(self, data3, data4): # 인스턴스 action return 0 @classmethod def class_method1(cls): # 클래스 print(f”{cls.data0}”) @staticmethod def static_method1(): # 정적 return def str(self) -> str: # 매직 return f”” def repr(self) -> str: return f”” @abstractmethod def abstract_method1(self): # 추상 pass {% endhighlight %} 클래스의 속성은 다음과 같이 구분을 할 수 있다. 각 객체의 속성 {% highlight python %} class (): def __init__(self, data1): self.data1 = data1 # 각 객체의 속성 {% endhighlight %} 모든 객체가 공유하는 속성 {% highlight python %} class (): data0 = 0 def __init__(self, data1): self.data1 = data1 .data0 += 1 # 모든 객체가 공유하는 속성 {% endhighlight %} 클래스 내부에서만 접근 가능한 속성(네임 맹글링(name mangling) 을 이용하여 변경은 가능) {% highlight python %} class (): def __init__(self, data1): self.__data1 = data1 # 불변 속성 .___data1 = "x" # 네임 맹글링 하는법 {% endhighlight %} docstring은 모듈, 함수, 클래스 또는 메소드 정의의 첫 번째에 오는 문자열으로 해당 객체의 doc 속성으로 사용됨. {% highlight python %} class (): """ 문서화 자료 입력 """ def __init__(self, data1): {% endhighlight %}

PYTHON

/

Basic · 2023-08-15

함수

PYTHON

/

Basic · 2023-08-14

입출력과 제어문

PYTHON

/

Basic · 2023-08-11

변수와 자료형

변수(variable) 어떠한 값을 담는 저장공간과 그것을 부르는 명칭으로 다음과 같은 규칙이 존재한다. 영문자, _로 시작을해야함 대소문자를 구분함 특수문자 사용불가능 공백이 존재할 수 없음 파이썬의 예약어(if else …) 사용불가능 변수에는 문자, 숫자, 데이터타입등을 선언할 수 있음. 변수를 선언하면 임의의 메모리와 주소를 할당함. 자료형(datatype) 사용자의 데이터를 프로그래밍 언어가 이해가능한 형식으로 정의 하는것을 일컬으며, 프로그램에서 저장하는 데이터의 타입으로 다음과 같은 형식들이 있다. NoneType : 어디에도 속하지 않는 해석불가능 타입 숫자(numeric) 정수(integral) 정수(int) : -1,0,1,… 부울(bool) : 참과 거짓을 나타내는 자료형 실수(float) : 1.04 복소수(complex) : 1+5i 수열(sequence) 불변(immutable) 문자열(str) : 문자들의 집합 튜플(tuple) : 순서를 가지는 집합으로 ()으로 구성이됨 바이트(bytes) : 바이트 나열 타입 e.x. b’0’ == b’\x00’ 변형(mutable) 리스트(list) : 순서를 가지는 집합으로 []으로 구성이됨 비트어레이(byte arrays) : 변형가능한 바이트 나열 타입 매칭(mapping) 딕셔너리 : 순서를 가지지 않은 집합으로 {}으로 구성되며 key와 value 쌍으로 구성이된다. 집합 : 중복이 없고 순서를 가지지 않는 객체의 모음 집합(set) : 중복이 없고 순서를 가지지 않는 객체의 모음 정적집합(frozen set) : 집합과 같지만 변형이 불가능 숫자형 숫자를 나타내는 형식으로 아래와 같다. 정수 : 소숫점이 없는 숫자 실수, 부동 소숫점 : 소숫점이 있는 숫자 숫자연산은 사칙연산, 나머지(%), 몫(//), 제곱(**)으로 구성된다. 숫자형변환은 문자형의 숫자, 형식이 다른 숫자형들 사이의 변환을 지원한다. $e.x., \;$ int(), float() 문자열 자료형 문자를 나타내는 형식으로 아래와 같은 방식을 따른다. 큰 따옴표, 작은 따옴표로 문자열 만들기 문자열 내부에 따옴표 넣기 이스케이프 문자를 사용해 문자열 만들기 e.x.) \n \t … 여러줄 문자열 만들기 e.x.) 줄바꿈 없이 문자열 만들기 문자열도 숫자열 처럼 연산이 가능해진다. (+)연산자는 문자열을 더함 (*)연산자는 문자열을 반복함 문자열은 숫자열과 다르게 각각의 문자가 독립적으로 구성이 되는데 이에 따라서 인덱싱(열 내부의 값을 지정) 과 슬라이싱(문자열의 범위 선택)이 아래와 같이 가능하다. ([]) 문자 선택 연산자(넘버링을 통해서 순서대로 추출가능) 문자 선택 연산자를 이용하여 넘버링 하는것을 인덱스라고 한다. 순방향 인덱스는 0에서 부터 증가 역방향 인덱스는 -1에서 부터 감소 ([:]) 문자 범위 선택 연산자 문자범위 선태가 전후에 인덱스를 이용하여 범위를 선택함 문자열에 다른 문자열과 숫자열을 넣으려고 할때 포멧에 맞춰서 넣어줘야 하며 포멧은 포멧팅은 여러 종류가 있다. %포멧팅은 아래와 같다. %d : 정수형 대입 %f : 실수형 대입 %s : 문자열 대입 %c : 문자 대입 %o : 8진수 %x : 16진수 {% highlight python %} data = “hello %s world %d” %(“to this”, 10) {% endhighlight %} .format()포멧팅은 아래와 같다. {% highlight python %} data = “hello {0} world {1}”.format(“to this”, 10) {% endhighlight %} .f string 포멧팅은 아래와 같다. {% highlight python %} data = f”hello world " {% endhighlight %} --- 문자열을 사용함에 있어서 주로 사용되는 함수는 아래와 같다. .len() : 문자열 길이 출력 .split(’.’) : 문자열 나누기 .count() : 문자 갯수 세기 .replace(’a’,’b’) : 문자열 바꾸기 .find(’a’) : 문자열 인덱싱 찾기 .upper() : 문자열 대문자로 변경 .lower() : 문자열 소문자로 변경 ‘a’.join(x) : 문자열 삽입 (x문자열의 문자사이에 a넣기) 리스트 자료형 ([])의 내부에 요소들을 넣는 자료형을 지칭하며 ‘,’으로 구분되며 여러가지 자료형을 담을 수 있다. 리스트도 문자열과 같은 연산이 가능하다. 리스트형도 문자열 처럼 인덱싱과 슬라이싱이 가능하다. 리스트는 인덱싱 또는 슬라이싱을 기반으로 하여 내부의 요소들을 아래와 같이 변경 또는 삭제가 가능하다. List[1] = ‘b’ : 리스트의 두번째 요소를 ‘b’로 변경 List[1:3] = [’a’,’b’] : 리스트의 두번째, 세번째 요소를 ‘a’,‘b’로 변경 del List[n] = 리스트 n+1번째 요소 삭제 리스트 자료형을 사용함에 있어서 주로 사용되는 함수는 아래와 같다. len(List[]) : 리스트 길이 출력 .sort() : 리스트 정렬 .reverse() : 리스트 뒤집기 .append(x) : 리스트 뒤에 요소 추가 .extend([]) : 리스트 확장 .insert(n,’a’) : n+1번째에 ‘a’삽입 .remove(n) : 리스트 n+1번째 요소 제거 .pop(n) : 리스트 n+1번째 요소 꺼내기(꺼낸 요소는 삭제됨) .count(x) : 리스트에 포함된 ‘x’의 갯수 확인 튜플 자료형 (())의 내부에 요소들을 넣는 자료형을 지칭하며 ‘,’으로 구분되며 여러가지 자료형을 담을 수 있다. 리스트와 다른점은 내부의 데이터가 수정 및 삭제가 안되는것이다. 특이점으로는 하나의 요소를 사용할때는 마지막에 (,)가 필요하고, (()) 없이도 튜플로 사용이 가능한것이다. 튜플도 리스트와 같은 연산이 가능하다. 튜플도 리스트형 처럼 인덱싱과 슬라이싱이 가능하다. 딕셔너리 자료형 ({})의 내부에 요소들을 넣는 자료형을 지칭하며 key, value로 구분되며 여러가지 자료형을 담을 수 있다. 리스트와 비교해보면 인덱스 대신 key를 사용한다. 딕셔너리에서 value를 추출하기 위해서는 Dic[’key’]와 같이 사용한다. 딕셔너리는 내부의 value를 변경과 삭제가 가능하다. 딕셔너리 자료형을 사용함에 있어서 주로 사용되는 함수는 아래와 같다. .keys() : key값을 리스트로 만듬 .values() : value값을 리스트로 만듬 .items() : key,value 쌍 얻기 .get(key) : key로 value 얻기 ‘key’ in Dic : key가 존재하는지 확인 .clear() : 딕셔너리 내부 삭제 집합 자료형 set()을 사용하는 비중복성 자료형이다. 명제의 집합과 같은 형태를 가진다. 집합은 다음과 같은 연산이 가능하다. | (합집합) : 집합간의 합집합을 구한다. & (교집합) : 집합간의 교집합을 구한다. - (차집합) : 집합간의 차집합을 구한다. 집합 자료형을 사용함에 있어서 주로 사용되는 함수는 아래와 같다. .add(’a’) : 한개의 값(’a’)을 추가 .update([]) : 여러개의 값([])을 추가 .remove(’a’) : 특정값(’a’) 삭제 부울 자료형 참과 거짓을 나타내는 자료형으로 조건형으로 사용된다. $e.x., \;$ “a” == “a”, bool(’’)⇒False, bool(’d’)⇒True

PYTHON

/

Basic · 2023-08-10

왜 파이썬인가?

파이썬 다양한 프로그래밍 언어가 존재하지만 방대한 라이브러리와 유저 친화적인 언어로 높은 범용성을 지닌 언어로써 점점 인지도가 증가하며 미래가 더 밝은 언어이기도 하다. 파이썬의 강력한 장점은 아래와 같다. 객체 지향형 언어 오픈소스 프로그래밍 언어 인터프리터 언어 데이터를 다루는데 특화되어있음 높은 점유율 AI 모델링에 적합함

PYTHON

/

Basic · 2023-08-09

How to use Git

GIT

/

basic · 2023-08-08

About Data Structure

시간복잡도 알고리즘 로직에서 입력값이 전체 연산의 시간에 미치는 영향을 알기 위한 방법 big-O 상한 점근법으로 최대 걸리는 시간을 알 수 있다. 아래는 대표적인 시간이다. $O(1)$ - 단일 작업 $O(n)$ - 입력에 대한 모든 작업 $O(n^2)$ - 입력에 대한 모든 작업의 재반복 $O(log(n))$ - 입력에서 이진 탐색하는 방법 big-omega 하한 점근법으로 최선의 경우에서 시간을 알 수 있다. big-theta 상*하한 점근법의 평균 list LIFO(last in first out) 모델 static list 일반적인 정적 리스트 범위를 미리 지정하고 넘어가면 추가 할당함 linked list 리스트 요소마다 연결되는 형식 처럼 제작한 리스트 {% highlight python %} from collections import deque queue = deque() {% endhighlight %} stack LIFO(last in first out) 모델 push() 데이터 입력 pop() 데이터 출력(+삭제) top(), peek() 데이터 출력 Queue FIFO(first in first out) 모델 push(), offer(), add() 데이터 입력 pop(), poll() 데이터 출력(+삭제) peek() 데이터 출력 hash(Dictionary,Set in python) 데이터를 빠르게 저장하고 가져오는 기법으로 key를 연산을 통해 value를 알 수 있다 sorting 정렬을 하는방법으로 동일한 값이 기존서순대로 나열 되는 stable sort와 그렇지 않은 unstable sort로 나뉘어진다. binary search 정렬된 값에서 중앙값을 찾고 중앙을 기준으로 나눠서 유사한값이 해당하는 집합에서 다시 중앙값을 찾아 나가는 방법 bubble sort(stable) 순서대로 다음값과의 순서를 비교하여 정렬하는법 $O(n^2)$ insert sort(stable) 순서대로 다음값을 포함하여 포함한 집합에서 순서를 비교하여 정렬하는법 $O(n^2)$ merge sort(stable) 각 개별로 분할하고 다시 짝찌어 돌아가면서 정렬하는법 $O(n log(n))$ quick sort(unstable) 임의의 pivot값을 정하고 pivot보다 크거나 작은 값을 재배치하는것을 반복함 $O(n log(n))$ ~ $O(n^2)$ 재귀함수 자기 자신을 재호출하여 사용하는 함수의 방식, 시스템 자원의 효율이 조금 떨어짐 base case, recurrence relation으로 이루어지며 base case로 모든 문제가 해결이 되어야한다. tree 데이터의 계층적 구조를 나타내며 하나의 노드가 여러 노드들을 가르킬 수있습니다. binary tree 트리 구조에서 자식 노드를 최대 두개까지 가지는 구조 tree search preorder 방식 루트를 방문 후 왼쪽 자식 노드, 오른쪽 자식 노드 순으로 진행되며 자식 노드를 루트 노드화 하며 심층적 탐색을 한다. inorder 방식 왼쪽 자식 노드를 가고 루트를 방문한 후 오른쪽 자식 노드로 이동하는 방법으로 자식 노드를 루트 노드화 하며 심층적 탐색을 한다. postorder 방식 왼쪽 자식 노드를 가고 오른쪽 자식 노드로 이동한 다음 루트를 방문하는 방법으로 자식 노드를 루트 노드화 하며 심층적 탐색을 한다. binary tree search 중복된 값이 없이 루트의 왼쪽에는 루트보다 작은값 오른쪽에는 루트보다 큰값으로 구성이된다.(중위 탐색 기법으로 구성) 데이터 삭제시 왼쪽의 최대값 또는 오른쪽의 최소값과 교체한다. heap 완전 이진트리의 구조를 가지며 데이터 찾기$O(1)$와 추가,삭제$O(log(n))$가 빠르다. max heap 루트 노드가 자식 노드보다 크거나 같음 min heap 루트 노드가 자식 노드보다 작거나 같음 priority queue 들어온 순서와 상관없이 우선 순위가 높은 데이터 순으로 처리 heapify(O(n)) 데이터가 추가(O(logn)) 및 삭제(O(logn))될때 힙 구조를 유지하기 위한 로직 {% highlight python %} import heapq min_heap=[1,4,6,3,7,8,2] heapq.heapify(min_heap) heapq.heappop(min_heap) heapq.heappush(min_heap) {% endhighlight %} graph vertex(노드)와 edge(연결선)으로 구성이되며 2차원 행렬 관계도 또는 인접 리스트 관계도로 표현이 가능하다. 방향 그래프 edge에 방향성을 추가한 그래프 가중치 그래프 edge에 가중치를 추가한 그래프 순환 그래프 vertex에서 edge를 거쳐 되돌아 올 수 있는 방향 그래프 adjacency matrix(인접 행렬) 연결된 vertex는 1 연결이 안된 vertex는 0으로 나타내는 행렬(메모리 비효율) adjacency list(인접 리스트) 연결된 vertex를 나열한 리스트를 모은 dictinary implicit graph(암시적 그래프) 그래프 탐색 DFS(depth-first-search) 깊이 우선 탐색법으로 stack을 이용하거나 preorder inorder postorder를 사용 가능하다. BFS(breadth-first-search) 너비 우선 탐색법으로 queue사용가능, 가까운것을 먼저 검색한다고 볼 수 있다.(이미 방문한 노드는 재진입 하지 않는다.) 위상정렬 비순환 그래프를 순서대로 출력하는 방법 Queue(진입 차수) 활용 진입 차수는 노드에 들어오는 edge의 수를 의미하며 진입 차수가 0인 노드들을 queue에 넣고 순차적으로 빼면서 연결된 edge를 제거하며 해당 노드를 넣는것을 반복한다. stack(DFS) 활용 깊이가 깊은 곳부터 순차적으로 stack을 쌓고 모든 데이터가 전부 쌓이고 나면 추출하는 방식. 그래프의 최단거리 다익스트라(Dijkstra) 노드에서 노드끼리 최단 경로를 찾는 방법으로 edge의 가중치는 양수로 이루어 진다. DP 동적 계산법으로 재귀함수에서 하위의 함수가 중복될때 사용 피보나치의 경우 $O(2^n)$에서 $O(n)$으로 감소 구하려는것부터 시작하는 top-down, 아는것 부터 시작하는 bottom-up방식이 있다. cache 데이터를 임시로 저장하는 저장소 LRU(Least Recently Used) 가장 예전에 사용한 데이터를 삭제하는 방법 LFU(Least Frequently Used) 가장 사용빈도가 작은 데이터를 삭제하는 방법

COMPUTER SCIENCE

/

basic · 2023-08-07

회기분석

회기분석(regression test) 예측변수를 토대로 결과변수를 예측해내는 방법을 회기분석(regression test)이라고 부르며, $Y=f(X_1,…,X_k)+\epsilon$, $\epsilon \sim N(0,\sigma ^2)$라고 표현된다. 선형회기(linear regression) $Y = \alpha + \beta X + \epsilon \rightsquigarrow \hat{Y}=\hat{\alpha}+\hat{\beta}X$로 만드는 것을 회기선($\hat{Y}$)을 만드는 것이다. $y_i - \hat{y_i}$를 잔차(residual)라고 한다. 다각형회기(polynomial regression) $Y = \alpha_0 + \alpha_1 X + \alpha X^2 + \epsilon$ 논리회기(logistic regression) $\sigma(x) = {1 \over {1+e^{-x}}} \rightarrow \sigma (\beta_0 + \beta_1 x)$

MATH

/

Statistic · 2023-08-04

모집단과 샘플링

모집단(population) 샘플링(sampling) 어떠한 정보를 구하려고 할때 해당 대상의 전체 집합을 모집단(population)이라고 하며 이러한 모집단에서 임의의 집합을 추출하면 이것을 샘플링(sampling)한다고 할 수있다. 이러한 샘플링에는 복원추출과 비복원추출이 있으며, 복원추출은 추출한 데이터를 포함하여 다시 추출하는것을 이르고 비복원추출은 추출한 데이터를 포함하지 않고 추출하는것이다. 샘플링 기법으로는 단순(simaple random), 층화(stratified), 계통(systematic), 군집(cluster) 샘플링이 대표적이다. 단순 샘플링은 랜덤하게 추출한것, 층화 샘플링은 그룹화된 모집단에서 균일한 갯수의 요소들을 추출한것, 계통 샘플링은 매 k번째 요소를 추출하는것, 군집 샘플링은 군집화된 집단들에서 몇개를 선택하는것이다. 모집단에서 영향받은 독립 분포(iid)(independent & identically distributed) 샘플의 이상적인 상황을 의미하며 iid일 경우 랜덤샘플 $X_1,…,X_k$, 모집단 $f(x: \theta)$ 이면 $X_1,…,X_k \overset {iid}{\sim} f(x: \theta)$으로 나타낼 수 있다. 랜덤샘플 $X_1,…,X_k$일때 $u(X_1,…,X_k)$를 통계량(statistic)으로 표기할 수 있다. 표본 변수(sample variable)와 불편향성(unbiased estimator) 모집단 $X \sim Bernoulli(p)$에서 $iid$ 랜덤샘플 $X_1,…,X_k$일때, 표본비율(sample rate) $\hat{P}:={1 \over n}(X_1+ \cdots + X_n)$, 표본평균(sample mean) $\bar{X} := {1 \over n} \sum_{i=1}^n X_i$ 표본분산(sample variance) $S^2:={1 \over {n-1}} \sum_{i=1}^n{(X_i-\bar{X})^2}$ 이 된다. $X \sim (\mu , \sigma ^2) \rightarrow E(\bar{X})=\mu , \; E(S^2)=\sigma ^2$ 일때 $\bar{X}, \; S^2$을 불편향성(unbiased estimator)을 가진다고 한다.

MATH

/

Statistic · 2023-08-03

표본분포

카이제곱분포($X^2$ distribution) $k \in \mathbb{N}$이고 $Z_{11}^2, \cdots ,Z_{1k}^2 \overset{iid}{\sim} N(0,1)$ 일때 $X \sim X^2(k) \overset{def}{\leftrightarrow} X \overset{d}{\equiv} Z_{11}^2+ \cdots +Z_{1k}^2$를 카이제곱분포($X^2$ distribution)라고 부르며 $k$를 자유도(degree of freedom)이라고 부른다. $X \sim X^2(k) \rightarrow E(X) =k, Var(X)=2k$ ( $\therefore k$가 커질 수록 그래프가 오른쪽으로 이동하며 평평해진다.) $X_1,…,X_n \overset{iid}{\sim} N(\mu, \sigma ^2)$ 일때, $\bar{X} \sim N(\mu, \sigma ^2 / n)$ $S^2=\sum(X_i-\bar{X})^2/(n-1)$ $in$ $\bar{X}$ : independent ${(n-1)S^2 \over {\sigma ^2}} \sim X^2(n-1)$ 카이제곱 분포는 모집단의 분산을 추정하기 위해 사용한다. t분포(t-distribution) $Z \sim N(0,1), \; V \sim X^2(r), \; Z,V$: 독립적 일때, $X \overset{d}{\equiv} {Z \over {\sqrt{V/r}}} \sim t(r)$ 이다. $X_1,…,Xn \overset{iid}{\sim} N(\mu,\sigma ^2) \rightarrow {\bar{X}-\mu \over {S/\sqrt{n}}} \sim t(n-1)$ (모표준편차를 표본표준편차로 대체하는것) t분포는 표본의 크기가 작거나 모분산을 알 수 없을때(위와 같이 표준편차를 대체하여) 모집단의 평균은 측정할때 사용된다. f분포(f-distribution) $V_1 \sim X^2(r_1), \; V_2 \sim X^2(r_2), \; V_1,V_2$: 독립 $F \overset{d}{\equiv}{V_1/r_1 \over {V_2/r_2}} \sim F(r_1-1,r_2-1)$ 두개 이상의 모집단의 분산비를 추론하여 비교할때 사용된다.

MATH

/

Statistic · 2023-08-02

분산분석

분산분석(analysis of variance)(ANOVA) 세 집단 이상의 비교군을 비교할때 사용하는 가설검정으로 보통 F-통계(F-statistic)를 이용한다. 이는 독립원과 종속원의 유의미한 차이를 검정하는 방식이다.

MATH

/

Statistic · 2023-08-01

중심극한정리와 큰수의 법칙

중심극한정리(CLT)(central limit theorem) $X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 이면서, $n$이 충분히 크다면 표준정규분포를 따르는데 이것을 중심극한정리(CLT)(central limit theorem)라고 한다. 큰수의 법칙(LLN)(law of large numbers) $X_1,…,X_n \overset{iid}{\sim}(\mu,\sigma^2)$ 일때, $\forall \epsilon > 0, \; \underset{n \rightarrow \infty}{\lim}P(|\bar{x_n}-\mu| < \epsilon)=1$ 즉, 시행횟수가 늘어나면 통계적 확률이 수학적 확률에 수렴할 확률이 1에 가까워 진다는 것으로 큰수의 법칙(LLN)(law of large numbers)이라고 불린다.

MATH

/

Statistic · 2023-07-31

가설검정

가설의 종류(Type of hypothesis) 가설에는 기각하고자 하는 가설과 채택하고자 하는 가설이 존재하며, 기각하고자 하는 가설은 변화가 없음에 초점을 둔 귀무가설(Null hypothesis)($H_0$) 그리고 채택하고자 하는 가설은 변화가 있음에 초점을 둔 대립가설(alternative hypothesis)($H_1$)이라고한다. $H_0$을 기각 하지 못했을 경우 $H_1$을 채택하면 안되고 가설을 재채택해야한다.(error type2) 유의수준(significance level) 기각역(critical region) $H_0$가 사실이지만 기각을 할 확률을 의미하며 유의수준(significance level)$\alpha$이라고 한다. $H_0$가 기각되고 $H_1$가 채택되는 영역으로 기각역(critical region)이라고 불리고 $\alpha$에 영향을 받으며 $x$축의 집합이다. 단측검정(one-side test) 양측검정(two-side test) 분포에서 기각역과 유의수준이 한쪽 측면에서만 발현이 되는것을 단측검정(one-side test), 두쪽 방향에서 같이 발현이 되는것을 양측검정(two-side test)라고 부른다. 검정의 오류(error type of test) $H_0$가 사실일때 $H_1$이 채택이되면 제 1종 오류(type 1 error), $H_1$이 사실일때 $H_0$이 채택이 되면 제 2종 오류(type 2 error)라고 부른다. 유의확률(p-value) $H_0$가 사실일 할 확률을 의미하며 유의확률(p-value)이라고 한다.

MATH

/

Statistic · 2023-07-27

확률

표본공간(sample space)과 사건(event) 전체 공간의 부분집합을 사건(event)이라고 정의하고 전체 공간에서 관측 가능한 모든 집합을 표본공간(sample space)이라고 한다. 확률(probability) 표본공간에서 다음의 규칙들을 만족하는 것을 확률(probability) $P$라고 한다. $P(S)=1$ $\forall \; event \; A \; on \; S$, $0 \leq P(A) \leq 1$(positive measure) $A_1,A_2,… : event \; with \; A_i \cup A_j=\phi$(=mutually disjoint) → $P(A_1 \cup \cdots ) = P(A_1) +\cdots$ 확률변수(random variable) $X:S \rightarrow R$인 함수가 모든 출력을 포함하고 있으면 확률변수(random variable)라고 한다. 이산확률변수(discrete random variable) 확률변수는 크게 두종류로 나뉘어지며 countable 할 경우는 이산확률변수(discrete random variable)로 불려지며 확률을 계산을 할때 사용하는 확률밀도함수(probability density function)는 $f:X(X) \rightarrow [0,1]$, $f(x):=P(X=x)$ $P(a \leq X \leq b)= \underset{a\leq x \leq b}{\sum}f(x)$ 로 나타낼 수있다. 연속확률변수(continuous random variable)과 연속균등분포(uniformdistribution) uncountable할때는 연속확률변수(continuous random variable)로 불려지며 확률밀도함수는 $\int_a^bf(x)dx=P(a \leq X \leq b)$로 나타내진다. 연속확률변수가 균등한값을 가지게 되는 특이케이스를 연속균등분포(uniformdistribution)라고 부르며 다음과 같이 표기하기도한다. $-\infty < a < b < + \infty$, $f(x):=\begin{cases} {1 \over {b-a}} \; if x\in[a,b] \ 0 \; otherwise \end{cases}$ 확률에서의 변수들(variables in probability) 확률에서는 통계및 분석을 위해서 다양한 변수들을 구한다. 이산확률분포에서 기댓값(expectation)은 $E(X) = \mu :=\sum_x x\cdot f(x)$ 분산(variance)은 $Var(X) :=E((x-\mu)^2) = E(X^2)-E(X)^2$ 표준편차(standard deviation)는 $\sigma(X) := \sqrt{Var(X)}$ 연속확률분포에서 기댓값은 $E(X) = \mu :=\int_{-\infty}^{+\infty} x\cdot f(x)dx$ 분산은 $Var(X) :=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx = E(X^2)-E(X)^2$ 표준편차는 $\sigma(X) := \sqrt{Var(X)}$ 확률분포(distributions) 베르누이 실행(bernoulli trial) 동전을 던져서 앞뒤를 확인 하는것처럼 단 1회의 기회에 참과 거짓이 있는것을 베르누이 실행(bernoulli trial)이라고 부른다. 이항분포(binomial distribution) 베르누이 실행과 같이 참과 거짓만 있는 분포도를 베르누이 분포(bernoulli distribution)라고 한다. 참과 거짓이 아닌 임의의 $p$확률과 $1-p$ 확률이 있을때 다회의 실행에서 나타내는 분포를 이항분포(binomial distribution)라고 부른다. 이는 $P(X=k)= \begin{pmatrix} n\ k \end{pmatrix} \cdot p^k(1-p)^{n-k} (0 \leq k \leq n, k \leq \mathbb {Z})$로 표현되며 $X \sim B(n,p)$이다. 다항분포(multinomial distribution) 이항분포의 경우 두개의 경우에서만의 확률이라면 더많은 경우에서의 확률을 가질때는 다항분포(multinomical distribution)라고 칭하며 $n$번의 시행횟수, $k$개의 경우, 각확률이 $p_1,…,p_k$라고 할때, $P(X=(x_1,…,x_k))= \begin{pmatrix} n\ x_1,…,x_k \end{pmatrix} \cdot p_1^{x_1} \cdots p_k^{x_k} (0 \leq k \leq n, k \leq \mathbb {Z}, p_i \in [0,1])$ 표준정규분포(standard normal distribution) $\phi(z):={1 \over \sqrt{2\pi}}e^{-{1 \over 2}z^2}$를 $pdf$로 가지는 확률분포를 표준정규분포(standard normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq z \leq b)=\int_a^b \phi(z)dz, Z \sim N(0,1)$ 나타낸다. 정규분포(normal distribution) z-score $\mu \in \mathbb{R}, \sigma > 0$이면서 ${1 \over \sigma}\phi({x-\mu \over \sigma})={1 \over \sqrt{2\pi}\sigma}e^{-{1 \over 2}({x-\mu \over \sigma})^2}$로 구성된 확률분포를 정규분포(normal distribution)라고 부르며 $pdf$를 다음과 같이 $P(a \leq x \leq b)=\int_a^b {1 \over \sigma}\phi({x-\mu \over \sigma})dx, X \sim N(\mu,\sigma^2)$ 나타낸다. 표준편차 $\sigma$에 해당되는 수치 별로 전체 데이터가 해당하는 비율을 알 수 있고 그것을 z점수(z-score)라고 부르며 $\sigma$에 해당하는 값을 68%, $2\sigma$에 해당하는 값을 95%라고 한다. 이와 같은 비율들로 이상치를 확인하기 쉬워진다. 푸아송분포(poisson distribution) 이항분포에서 시행 횟수가 무한히 클경우 계산하기 힘들어진다, 이때는 근사치를 이용하여 계산을 하는것이 비교적 쉬워지는데 이것을 푸아송근사 라고 칭하며 푸아송분포(poisson distribution)을 가지게 된다. $n \gg 1 \; \& \; p \ll 1$ s.t. $np_n \rightarrow \lambda \; as \; n \rightarrow \infty$ 일때 $pdf_X(x) ={n \choose x}p_n^x{(1-p_n)}^{n-x} \rightarrow {e^{-\lambda} \lambda^x \over x!} \; as \; n\rightarrow \infty$로 나타내진다. $X \sim Poisson(\lambda) \rightarrow E(X) =\lambda, \; Var(X)=\lambda$

MATH

/

Statistic · 2023-07-26

행렬

행렬의 곱(product) 전치행렬(transpose) 행렬에서의 연산은 기존의 연산과는 조금 다르고 특이점이 있다. $A = (a_{ij}) \in M_{(m \times n)}(R)$, $B = (b_{ij}) \in M_{(n \times l)}(R)$ 인 행렬이 두개가 있을때, 행렬의 곱(product) $AB \in M_{m \times l}(R)$은 ${[AB]} _ {ij}:= \sum_{k=1}^{n} a _ {ik}b _ {kj}$이다. $A^t \in M_{(n \times m)}(R)$은 $A$의 전치행렬(transpose)이라고 한다.

MATH

/

Basic · 2023-07-25

GitHub blog

깃허브 레포지토리 만들기 우선 깃허브의 계정 또는 조직(organization)을 생성을 한다. 아래와 같이 레포지 토리 생성을 시작한다. 위의 사진에서 초록색 버튼을 클릭하고 위의 사진에서 <name>에 계정이름 또는 조직이름을 기입한다. 이름을 해당 방식과 다르게 제작할 경우 <name>.github.io이 기본 도메인이 되지않고 <name>.github.io/<other> 이 기본 도메인이 된다. 설정후 초록색 버튼을 클릭한다. 상단오른쪽의 settings로 들어간다. 왼쪽바에서 Pages로 들어가서 Branch를 /(root)가 되게 설정한다. jekyll 설치하기 jekyll는 다양한 사이트 테마를 지원하며 수정하기 용이한 폼을 가진다. ruby 설치하기 ruby는 gem이라는 패키지 관리자를 지원하며 jekyll를 사용하기 위해 jekyll에서 추천하는 프로그래밍 언어이다. 다운로드 사이트 ruby를 설치하고 사용하려면 c, c++ 등을 추가적으로 사용하기 위한 Mingw가 필요하며 이는 ruby+Devkit을 다운받으면 MSYS2를 추가적으로 다운로드 받으며 같이 다운로드 받을 수 있다. 하지만 기존에 Mingw를 다운받았을 경우 MSYS2를 다운로드 받고 추가 다운로드를 진행하지 않아도 된다. 위와 같이 설정하여 다운받으면 마지막에 아래와 같이 뜨게 된다. 여기서 체크하고 다음으로 넘어가면 자동으로 MSYS2까지 다운이 받아진다. 만일 자동적으로 안될경우 안내문에 나와 있듯이 ruby prompt에서 ridk install을 입력하면 다운로드 창이 뜨게된다. 여기서 Mingw가 설치된 사람은 1 설치가 안된사람은 3을 선택하여 MSYS2를 설치하면 된다. 3을 선택하여 설치해도 Mingw가 설치가 안될 수있는데 이럴경우 부득이하게도 인터넷에서 직접설치해야한다. 설치완료 후에는 아래와 같이 환경변수 설정이 되었는지 확인한다. 디렉토리 주소는 설치시 본인의 설치방식에 따라 다를 수 있다. 설치 및 환경변수 설정이 완료 되었다면 cmd 창을 켜서 {% highlight shell %} gem -v gcc -v g++ -v ruby -v {% endhighlight %} 를 입력 후 출력이 잘 나오는지 확인한다. 잘 나온다면 모든 설치가 잘 되었다는 의미이며 잘 되지 않을경우 ruby, gem은 루비설치 gcc, g++은 Mingw의 설치가 잘안되었음을 알 수 있다. 이제 거의 다왔습니다. ruby prompt를 켜서 {% highlight shell %} gem install jekyll bundler {% endhighlight %} 을 입력하여 jekyll과 bundler를 다운받습니다. jekyll는 테마사용 bundler는 markdown 작성 후 동작확인을 위해 사용됩니다. 다시 깃허브로 돌아와서 블로그를 관리할 폴더를 생성 후 해당 폴더에 cmd를 통하여 {% highlight shell %} git clone <address> {% endhighlight %} 로 내려 받은 후 해당 폴더의 위치에 ruby prompt를 이용하여 {% highlight shell %} jekyll new ./ {% endhighlight %} 를 입력하여 새 jekyll 사이트를 설치한다. ruby prompt로 {% highlight shell %} bundle exec jekyll serve {% endhighlight %} 입력하여 bundle로 jekyll를 실행 후 http://127.0.0.1:4000/에 접속하여 다운받은 jekyll가 정상 작동되는지 확인한다. 그럼 기본적인 설정은 완료가 되며 다음의 사이트에서 테마를 찾아본 후 사이트에서 지원하는 방법대로 나의 jekyll 사이트에 덮어씌우면 된다. 사이트1 사이트2 사이트3 사이트4

GIT

/

Blog · 2023-07-25

수열과 극한

열거(enumerate) 대부분의 countable한 집합 $A$의 경우 열거(enumerate)할 수 있으며 $A={{a_1,a_2,…}}$와 같이 표기 할 수 있다. 수열(sequence) 함수 $f$가 $N$에 대하여 임의의 정수가 매칭이 되는 대상이 있을때 다음과 같이 정의 될때 다음을 $f : N \rightarrow \square$ e.q. $f : n \mapsto f(n)$ 수열(sequence)이라고 정의한다. 다양한 경우에서 예시를 보면 $a_n = {1 \over n} \in R$은 실수의 수열, $A_n=\begin{pmatrix} n & 0 \ 0 & 1 \end{pmatrix} \in M_2(R)$은 $2 \times 2$ 배열의 수열, $f_n(x) := x^n \rightsquigarrow {{f_n}}_{n=1}^\infty$ $(x \in [0,1])$는 함수의 수열 이다. 무한(infinity) 무한(infinity)을 표현 하는 방법은 여러가지 있는데 그중에서 수열을 이용한 방법으로는 다음과 같다. ${{a_n}}_{n=1}^\infty$ , $L \in R$ 일때, $\underset {m \rightarrow \infty}{lim}a_m =L$ $\overset {def}{\leftrightarrow}$ $\forall \epsilon >0, \; \exists M \in N$ s.t. $m \leq N \rightarrow |a_n -L|<\epsilon$ 으로 나타낼 수 있다. $e.q.$ $\quad a_n={1 \over n} \rightarrow 0$ in $n \rightarrow \infty$

MATH

/

Basic · 2023-07-24

선형성과 선형대수

선형대수학(linear algebra) 선형대수학(linear algebra)은 문자 그대로 연산의 선형성을 다루는것이다. 선형성을 따지기 위해서는 선형연산이 적용되는것을 확인해야한다. 선형연산(linear operations) 이항연산(binary operation)과 스칼라곱(scalar multiplication) 선형연산(linear operations)에는 이항연산(binary operation)과 스칼라곱(scalar multiplication)이 있으며, $V$가 비어있지 않은 집합일때 $\ast : V \times V \rightarrow V$이와 같은 상황에서 $V$에 대한 이항연산이라 부른다. $\cdot : R \times V \rightarrow V$에서는 $V/R$에 대한 스칼라곱이라 부른다. 백터공간(vertor space) 위와 같은 선형연산을 가지는 집합을 백터공간(vertor space)라고 부고 여기에는 다음과 같은 규칙들이 있다. $(v,t):abelian \;group$ $(v,t):group$ 결합법칙(associativity) : $(v+w)+u=v+(w+u)$ for $v,w,u \in V$ 항등원(identity) : $\exists 0_0 \in V$ s.t. $v+0_0=0_0+v=v$ in $\forall v \in V$ 역원(inverse) : $\forall v \in V, \exists v^` \in V s.t. v+v^` =v^`+v=0$ 교환법칙(commutative property) : $v+w=w+v$ for $w,v \in V$ 분배법칙(distributivity) $ in \; a,b\in R \; v,w\in V$ $(a+b)v = av+bv$ $(ab)v = a(bv)$ $A(v+w)=av+aw$ $1 \cdot v =v$, $\forall v \in V$ 선형사상(linear map) 두개의 백터공간이 입력과 출력이 되는 함수가 선형성을 가질경우 선형사상(linear map)이라 한다. 선형대수학의 기본정리(Fundamental Theorem of Linear Algebra, FTLA) 선형대수학의 기본정리(Fundamental Theorem of Linear Algebra, FTLA)에 따르면 선형사상과 행렬은 같은것으로 취급할 수있다.

MATH

/

Basic · 2023-07-21

이항정리

팩토리얼(factorial) 1에서 부터 $n$까지의 숫자를 전부 곱하는것을 $n!$라고 표기할 수 있으며 이를 팩토리얼(factorial)이라고 한다. 수식을 정리하면 $n! := \underset{1 \leq m \leq n}{\prod} m = n \times (n-1) \times \cdots \times 2 \times 1$ 와 같다. 이항정리(binomical theorem) 이항계수(binomical coefficient) 두개의 항을 가진 이항식을 거듭제곱을 하는경우를 단항식으로 나열하는것을 이항정리(binomical theorem)라고 하며 수식으로는 ${(a+b)}^n = \underset{r=0}{\overset{n}{\sum}}{n \choose r}a^rb^{n-r}$ 와 같이 표현을 한다. 이항정리에서 사용하는 계수를 이항계수(binomical coefficient)라고 하며 다음과 같이 정의한다 . ${n \choose r} := { n! \over r!(n-r)!}$ 다항정리(multinomical theorem) 다항계수(multinomical coefficient) 이항정리와 이항계수를 차수를 높여서 포면 고차항에서도 사용이 가능하며 이를 다항정리(multinomical theorem)와 다항계수(multinomical coefficient)라고 한다. 다항정리는 다음과 같이 표현하며 ${(a_1+ \cdots +a_n)}^n = \underset{\underset{r_i \in N \cup {{0}}}{r_1+ \dots +r_k=1}}{\overset{n}{\sum}}{n \choose r_1, \cdots, r_k}a_1^{r1} \cdots a_k^{r_k}$ 다항계수는 다음과 같이 표현한다. ${n \choose r_1, \cdots, r_k} := { n! \over (r_1, \dots , r_k)!}$ $\quad n, r_1, \cdots, r_k \in N \cup {{0}}, \overset {k}{\underset {i=1}{\sum}}r_i=n$

MATH

/

Basic · 2023-07-20

지수함수와 로그함수

오일러 급수(Euler’s number)($e$) 무한(참조)에 대하여 알고나서 알고나서 자세하게 확인이 가능하며 무한 급수 $\overset {\infty}{\underset {n=0}{\sum}}{1 \over {n!}}$를 오일러 급수(Euler’s number)($e$)라고 한다. 이는 다른 표현으로 다음과 같이 표현된다. $e = \underset {n\rightarrow \infty}{lim}(1+{1\over n})^n \fallingdotseq 2.718$ 지수 함수(exponential function) $a > 1,a \neq 1$이면서 $y=a^x$의 형태를 가지는 함수는 지수 함수(exponential function)라고 한다. 지수 함수에서의 미분과 적분의 경우 ${d \over {dx}} a^x = log \,a \cdot a^x$, ${\int a^xdx} = {1 \over {log \, a}}a^x + C$로 표현이 된다. 로그 함수(logarithmic function) $a>0,a\neq1$ 이면서 $y={log}_ax$의 형태를 가지는 함수는 로그 함수(logarithmic function)라고 한다. 로그 함수에서의 미분은 다음과 같다. ${d \over {dx}} log_a x = {1 \over {log \,a}} \cdot {1 \over x}$

MATH

/

Basic · 2023-07-19

함수

이진관계와(binary relation) 순서쌍(ordered pair) 집합 $A, B$가 있을때 $a \in A, \; b \in B$일경우 $A$에서 $B$로의 이진관계(binary relation)($R$)는 순서쌍(ordered pair) (a,b)로 이루어진 집합이며 $A \times B$의 부분집합이다. 함수(function) $f \subset A \times B$이면서 $a \in A$와 매칭되는 유일한 $b \in B$를 가질경우 $f$를 $A$에서 $B$로 향하는 함수(function)라고 칭한다. 정의역(domain) 공역(codomain) 치역(range / image) 그래프(graph) $(a,b) \in f$에서 $x \in A$의 경우 $A$를 정의역(domain)이라고 하고 $y \in B$의 경우 $B$를 공역(codomain)이라고 한다. $A$에서 $B$로 향하는 $f(A) := {{f(x) \; : \; x \in A}}$는 치역(range / image)이라고 한다. $f: A \rightarrow B$에서 $G(f) := {{(x,f(x) \; : \; x \in A }} \subset A \times B$ 인 경우 $G$를 $f$의 그래프(graph)라고 한다. 단사(injective / one-to-one) 전사(surjective/ onto) 일대일대응(bijective / an one-to-one correspondence) 함수에는 다양한 형태의 함수가 있으며 $A$에서 $B$로 향하는 함수가 있을 경우 $A$의 원소가 유일 할경우 이를 단사(injective / one-to-one)라고 칭하며 아래와 같이 나타낸다. $f(x_1)=f(x_2) \rightarrow x_1=x_2$ $i.e., \;$ $\forall y \in f(A), \exists! x \in A \; s.t. \; y=f(x)$ $B$의 원소가 모두 사용될경우 이를 전사(surjective/ onto)라고 칭하며 아래와 같이 나타낸다. $f(A)=B$ i.e. $f(A) \supset B$ $i.e., \; $ $\forall y \in B, \exists x \in A \; s.t. \; y=f(x)$ 단사와 전사가 한번에 적용이 될경우를 일대일대응(bijective / an one-to-one correspondence)이라고 칭하며 아래와 같이 나타낸다. $\forall y \in B, \exists !x \in A \; s.t. \; y=f(x)$ 역함수(inverse function) preimage(역상) $y=f(x)$가 있을때 $f^{-1}(y)=x$로 사용한 함수를 $f^{-1} : B \rightarrow A$인 상태의 역함수(inverse function)라고 지칭한다. 역함수와 서로 오해하기 쉬운것으로 오해하지 말아야 하는것이 있는데 그것을 역함수이면서 일대일대응 인것을 preimage(역상)이라 하며 $f^{-1}(Q) := {{x \in A :f(x) \in Q }}$를 $f$에 대한 $Q$의 역상이라 한다. 이동(translation) $f:R \cdots> R$인 함수에서 함수 $y = f(x)$에서 $y+b=f(x-a)$로 변환된다면 이를 $x$축에서 $a$만큼 이동(translation), $y$축에서 $b$만큼 이동한다고 볼 수 있다. 또한 $y=f(ax)$은 $x$축에서 $1\over a$만큼 팽창(expansion)하고 $y = af(x)$은 $y$축에서 $a$만큼 팽창한다고 볼 수 있다. 볼록함수(convexity) 함수의 경우 다양한 형태의 모양을 가지게 되는데 $f: R \cdots > R$, $x,y \in Dom(f) \; with \; x<y \; and \; t \in [0,1]$에서 $f(tx+(1-t)y) \leq tf(x)+(1-t)f(y)$일경우는 볼록형(convex) $f(tx+(1-t)y) \geq tf(x)+(1-t)f(y)$일경우는 오목형(concave)이다. $e.g., \; $로그 그래프와 같은 형태를 오목형이라고 한다.

MATH

/

Basic · 2023-07-18

명제

명제(statement) 참과 거짓으로 이루어지는 선언형 문장을 명제(statement)라고 명칭한다. 명제에 있어서 논리문자는 아래와 같다. 모두(for all)($\forall$) 일부분(for some)($\exists$) 하나(only one)($\exists!$) 아니다(not)($!$) 그리고(land)($\land$) 또는(lor)($\lor$) 정의(define)($:=$) 반대되는(lnot)($\lnot$) 그렇다면(right arrow)($\rightarrow$) 단일매칭(maps to)($\mapsto$) 이외에도 많이 있으나 대표적으로 사용되는 몇개만 추려서 작성했다. 논리조건(logical condition) & 필요충분조건(necessary and sufficient conditon) $p$조건과 $q$조건이 있을 경우 $p \rightarrow q$의경우 $p$는 $q$의 충분조건(sufficient condition)이라고 하고 반대로 $q$는 $p$의 필요조건(necessary condition)이라고 부른다. 필요조건과 충분조건이 둘다 해당이될경우 필요충분조건(necessary and sufficient conditon)이라고 지칭한다. $p \; q$ | $p \wedge q$ $p \; q$ | $p \vee q$ $\;\,p\;\; | \;\;\neg p$ $p \; q$ | $p \rightarrow q$ $0 \; 0$ | $\;\;\; 0$ $0 \; 0$ | $\;\;\; 0$ $\;\,0\;\; | \;\;\;\, 1$ $0 \; 0$ | $\;\;\; 1$ $0 \; 1$ | $\;\;\; 0$ $0 \; 1$ | $\;\;\; 1$ $\;\,1\;\; | \;\;\;\, 0$ $0 \; 1$ | $\;\;\; 1$ $1 \; 0$ | $\;\;\; 0$ $1 \; 0$ | $\;\;\; 1$ $1 \; 0$ | $\;\;\; 0$ $1 \; 1$ | $\;\;\; 1$ $1 \; 1$ | $\;\;\; 1$ $1 \; 1$ | $\;\;\; 1$

MATH

/

Basic · 2023-07-17

집합

원소(element) 집합(set) 공집합(empty set)($\phi$) 원소(element)는 집합을 이루는 기본적인 구성요소로 원소들이 모여지면 집합(set)이라고 칭한다. 집합 중에서 비어있는 집합을 공집합(empty set)($\phi$)이라고 부른다. 집합 $A$와 원소 $a$가 있을 경우 $a \in A$로 표현이 가능하다. 원소 나열법(element enum) 조건 제시법(set-builder notation) 원소들을 표현 하는 방법에는 크게 두가지로 나뉘어 지며 원소 나열법(element enum)과 조건 제시법(set-builder notation)이있다. 원소나열법의 경우 ${{…,1,…}}$와 같이 원소를 직접적으로 적어서 표현하는 방법이고, 조건 제시법의 경우 ${{n \in A : n=2k, \; \forall k \in A}}$와 같이 수식을 통한 표현법이다. 부분집합(subset) 상호 포함(double inclusion) 집합$A$와 집합 $B$가 있을때 $A$에 있는 원소가 모두 $B$에 소속이 된다면 이를 $A$가 $B$의 부분집합(subset)이라고 부르며 $A \subset B$이라고 표기한다. $A$와 $B$가 서로의 부분집합일 경우 상호 포함(double inclusion)상태라고 부른다. 합집합(union)($\cup$) : $A \cup B := {{ x \in X : x \in A \ or \ x \in B}}$ 교집합(intersection)($\cap$) : $A \cap B := {{ x \in X : x \in A \ and \ x \in B}}$ 차집합(set minus)($\setminus$) : $A-B =A \setminus B := {{ x \in X : x \in A \ but \ x \notin B}}$ 여집합(complement)($X^C$) : $A^c := X \setminus A$ 곱집합(cartesian product)($\times$) : $A \times B := {{ (a,b) : a \in A \ and \ b \in B}}$

MATH

/

Basic · 2023-07-14

Dspy intro

How to start {% highlight shell %} from transformers import AutoModelForCausalLM, AutoTokenizer {% endhighlight %}

AI

/

NLP

/

dspy · 2023-04-02

mysql password

How to change password in mysql {% highlight shell %} mysql.server stop # mysql 종료 {% endhighlight %} {% highlight shell %} mysql.server start –skip-grant-tables # mysql 권한없이 접근 허용 {% endhighlight %} {% highlight shell %} mysql -u root # mysql root로 접근 {% endhighlight %} {% highlight shell %} update mysql.user set authentication_string=null where user=’root’; # 임시로 password 삭제 flush privileges; # 권한 적용 {% endhighlight %} {% highlight shell %} mysql.server restart; # mysql 재실행 {% endhighlight %} {% highlight shell %} mysql -u root; # mysql 접근 {% endhighlight %} {% highlight shell %} alter user ‘root’@’localhost’ identified with caching_sha2_password by ‘'; # 비밀번호 변경 {% endhighlight %} 권한 문제로 안될때 {% highlight shell %} SHOW VARIABLES LIKE ‘validate_password%’; # 권한 확인 SET GLOBAL =; # 권한 변경 {% endhighlight %}

ETC · 2023-02-23

Django unit test

PYTHON

/

Framework

/

Django · 2023-01-01

Django web

W G {% highlight python %} {% endhighlight %} Next step models forms views Prev(how to start) Prev

PYTHON

/

Framework

/

Django · 2023-01-01

WTMO-dev

Contact

All Posts