コーパスを使って韓国語の用例を検索してみる

松山ブーム

2025年現在、日本旅行に興味のある韓国人であれば、「愛媛」と「松山」を知らない人はいないのではないだろうか。「서울」と「부산」から松山への直行便があるので、1時間くらいで着く。しかし、ここまで多くの韓国人が松山に来ているということは、距離的な近さ以外にも、何かがあるのではないだろうか。

松山を訪れた韓国人観光客たちは、松山に来てどのような体験をしているのだろうか。去年(2024年)から気になっていたので、少しずつデータを集めている。以下の図は、松山を訪れた韓国人が韓国語で作成したブログ記事(旅行記)を分析した結果である。X軸は、それぞれの単語がどのくらい重要度の高いものなのかを示している。「마쓰야마(松山)」が重要度が高いのは言うまでもない。その次に「여행(旅行)」「일본(日本)」「곳(ところ)」「시간(時間)」「도고온천(道後温泉)」などが続く。

この中に「쿠폰(クーポン)」という語があるが、これは松山を訪れた韓国人観光客に、いくつかの場所で利用可能なクーポン券を配布しているからである(2025年3月まで)。

重要だから繰り返す

「上位20%が全体の80%を占める」という「パレートの法則(파레토 법칙、Pareto principle)」がある。服をいっぱい持っているのに「あぁ〜着る服がないなぁ〜」と言っている人のことを考えてみよう。服はたくさん持っているけれども、ひんぱんに着る服は、ある程度決まっているのではないだろうか。実際にその人が外出するときの服を観察してみると、100日のうち80日は、少数のお気に入りだけを繰り返し着ているかもしれない。

先ほど言った韓国人のブログ記事においても、パレートの法則が見られる。以下の図において、X軸は単語の順位(一番頻度が高い単語が1)を、Y軸は単語の累積比を表している。

図を見ると、上位を占める約8.6%の語が、語全体の80%を占めている。

このような分析をするためには、一定数以上のテキストデータが必要である。嬉しいことに、特定の個人や団体がテキストデータを大量に集めて、使いやすい形で公開している場合があるので、すぐに試してみることができる。大量のテキストデータを集めて、コンピュータで検索・処理可能な状態にしたものを「コーパス(corpus)」と言う。韓国語では「말뭉치」と言うこともあり、ここで「말」は「言葉」のことである。

韓国語コーパス

韓国語の用例をウェブ上で検索できるコーパスが、いくつか公開されている。なかには、本人確認が必要だったり、申請書を出したりしないと使えないものもある。ここでは、そのような手続きなしで使用可能なコーパスを紹介する。もちろん、韓国語のコーパスだから、韓国語の入力ができなければならない。

물결21 코퍼스 분석 도구

「고려대학교」の「민족문화연구원 디지털인문학센터」が構築したコーパスが利用できる。韓国の新聞記事コーパス、韓国近代雑誌コーパスなど、3種類のコーパスが利用できる。

현대한국어 용례검색기

「고려대학교」の「민족문화연구원」が提供している現代韓国語用例検索器。

연세 말뭉치 용례 검색 시스템

「연세대학교」の「언어정보연구원」が構築したコーパス。ここで、「20世紀韓国語コーパス」「均衡コーパス」「教育用コーパス」「主題別コーパス」の4つのコーパスが利用できる。

한국어 학습자 말뭉치 검색

국립국어원」の「韓国語学習者コーパス」。色々な国の韓国語学習者が算出した韓国語を集めたものである。外国人による韓国語の誤用分析にも活用できるだろう。

この記事を書いた人
徐敏徹
徐敏徹をフォローする