Algorithm (142) 썸네일형 리스트형 88. Rabin-Karp 라빈-카프 알고리즘(Rabin-Karp Algorithm)은 해싱을 이용하여 문자열을 검색하는 알고리즘이다. 이 알고리즘은 주로 부분 문자열들이 동일한지의 여부를 빠르게 판별해야 하는 경우에 쓰이는데, 각각의 부분 문자열을 일일히 해싱하는 것은 시간이 너무 오래 걸리므로 더 빠른 방법이 요구된다. Rabin Fingerprint는 이러한 문제를 해결할 수 있는 해싱 방법으로, 다음과 같은 형태로 나타낼 수 있다.$$f(x, n) = \sum_{k=0}^n(s_k \cdot x^k) = s_0 + s_1x + s_2x^2 + \ldots + s_{n-1}x^{n-1} + s_nx^n$$일반적인 라빈-카프 알고리즘은 이 식을 약간 변형해서 다음과 같이 만든 다음 해시값을 계산한다.$$f(x, n) = \su.. 87. Failure Function & Knuth-Morris-Pratt 앞선 글에서 문자열의 표현에 관한 내용들을 다루었고, 이제부터는 문자열의 검색에 대한 내용을 다룬다. 본격적인 내용을 설명하기에 앞서 용어를 정리한다. 어떤 문자열의 부분 문자열(Substring)은 문자열의 앞과 뒤에서 각각 $0$개 이상의 문자를 제거한 다음 남는 문자열을 의미한다. 이 글에서는 문자열 $s$의 부분 문자열을 $s[i, j]$로 표기하며, 이는 $s$의 $i$번째 ~ $j$번째 문자로 이루어진 부분 문자열이라는 뜻이다. 문자열의 인덱스는 0-based이다. 문자열의 접두사(Prefix)는 문자열의 뒤에서 $0$개 이상의 문자를 제거한 다음 남는 문자열을 의미한다. 문자열의 접미사(Suffix)는 문자열의 앞에서 $0$개 이상의 문자를 제거한 다음 남는 문자열을 의미한다. 문자열 $s$.. 86. Regular Expression 정규 표현식(정규식, Regular Expression, Regex/Regexp, Rational Expression)은 규칙을 가진 문자열의 집합을 표현하기 위해 사용되는 형식 언어이다. 일부 프로그래밍 언어와 텍스트 편집기는 문자열의 검색 및 치환 등을 위해 정규 표현식을 지원하고 있으며, 표준 라이브러리에 정규 표현식이 제공되지 않는 대부분의 프로그래밍 언어는 별도의 라이브러리를 통해서 정규 표현식을 사용할 수 있다. python과 JAVA는 표준 라이브러리에 정규 표현식이 제공되며, C++의 경우 C++11 표준에 정규 표현식이 추가되어 C++11 표준부터는 정규 표현식을 사용할 수 있다. C에도 정규 표현식이 존재하지만 POSIX 환경에서만 사용이 가능하다. 정규 표현식의 기본적인 문법은 다음과.. 85. Hashing 해싱(Hashing)은 길이가 정해지지 않은 임의의 데이터를 길이가 정해진 데이터로 변환하여 표현하는 것을 말한다. 일반적으로 해싱의 대상이 되는 '길이가 정해지지 않은 임의의 데이터'는 문자열인 경우가 많으며, 해싱의 결과인 '길이가 정해진 데이터'는 정수값으로 나오는 경우가 많다. 이런 이유로 이 블로그에서는 문자열을 정수로 해싱하는 경우만 다루지만, 해싱의 대상과 결과가 항상 이렇게 될 필요는 없다. 해싱에 대해 알아보기 전에 왜 해싱이 필요한지를 알아야 한다. 문자열을 해싱하는 것이 그다지 특이한 일이 아니라는 것은 문자열을 그대로 사용할 경우 큰 단점이 생기는 상황이 있다는 것을 의미한다. 이 상황은 문자열을 검색하는 상황이다. 정수나 실수 데이터를 비교할 경우 단순히 한 번(경우에 따라 두 번.. 84. Parsing 파싱(구문 분석, Parsing)은 문장을 적절한 구성 성분으로 분해한 다음 그것을 분석하여 문장의 구조를 정하는 것이다. PS에서의 파싱은 이보다 조금 더 제한적인 의미로 사용되는 경우가 많으며 이때의 의미는 주로 '문자열을 기준에 따라 여러 데이터로 구분하여 원하는 형태로 만든 뒤 적절하게 처리하는 것'으로 해석할 수 있다. PS에서 파싱은 수와 수가 아닌 문자들이 섞여 있을 때 이것들을 분리할 경우, 특정한 기호가 정해져 있고 그것이 문자열에 등장하는지의 여부를 사전에 알 수 없거나 등장하는 위치가 변할 수 있는 경우, 길이가 정해지지 않은 문자열이 화이트 스페이스 이외의 다른 문자로 구분되어 입력되는 경우 등에 사용된다. 그밖에 다른 유형도 존재하며 각각의 유형을 적절하게 처리해야 데이터를 편리하.. 83. Strings Intro 카테고리 F에서는 문자열 및 이와 관련된 몇 가지 알고리즘에 대해서 다룬다. 다루는 내용은 다음과 같다. 파싱(Parsing) 해싱(Hashing) 정규 표현식(Regular Expression) 실패 함수, KMP(Failure Function & Knuth-Morris-Pratt) 라빈-카프(Rabin-Karp) 매내처(Manacher) 트립, 트라이(Treap & Trie) Z 알고리즘(Z Algorithm) 접미사 배열, LCP 배열(Suffix Array & LCP Array) 아호-코라식(Aho-Corasick) 대부분의 문자열 알고리즘은 문자열의 표현, 문자열 검색의 두 가지 측면에서 이해할 수 있으며, 정교한 부분이 많아서 다소 어렵거나 복잡하게 느껴질 수도 있지만 그만큼 성능이 뛰어나다... 82. Sum Over Subsets 집합이 존재할 때 각각의 부분집합에 대해 그 집합의 부분집합의 합(Sum Over Subsets, SOS)을 빠르게 계산하는 방법에 대해서 다룬다. 이 방법은 DP 테이블을 채우면서 부분집합의 합을 계산하기 때문에 SOS DP라고 불린다. 원소의 개수가 $n$인 집합의 부분집합의 개수가 $2^n$이고, SOS DP의 기본 시간복잡도가 $\Theta(2^n \cdot n)$이기 때문에 일반적으로 $n$은 $20$ 이하이다. SOS DP는 집합을 비트마스크로 표현하며, 따라서 비트필드를 이용하게 된다. 집합을 0-based로 나타내면 $0 \le p 두 집합 $A, B$를 나타내는 정수가 각각 $x, y$일 때 $(x \And y) = y$인 경우 $B \subset A$이고 $(y \And x) = x$.. 80. Tree DP 트리에서의 동적 계획법(Tree DP)에 대해 다룬다. 트리에 대한 내용을 전혀 다루지 않은 상태에서 트리 DP를 다루는 건 순서가 뒤바뀐 느낌이지만 트리 DP가 트리와 DP 중 DP에 더 가깝기 때문에 여기서 다루었다. 트리에 대한 내용은 카테고리 H에서 다루며, 기본적인 내용은 이 글을 참고하면 된다. 일반적으로 트리 DP를 시작하는 정점은 트리의 루트이며 루트 없는 트리가 주어지는 경우 임의의 정점을 하나 선택하면 되는 경우가 많다. 또한 자식 노드들의 DP 정보를 바탕으로 부모 노드의 DP 정보를 갱신하는 방법과 부모 노드의 DP 정보를 바탕으로 자식 노드의 DP 정보를 갱신하는 방법으로 구분할 수 있다. 일반적으로 전자가 더 많이 사용되는 것 같다. [연습문제] BOJ 15681. 트리와 쿼리 .. 이전 1 ··· 6 7 8 9 10 11 12 ··· 18 다음