授業科目一覧
基盤科目
コース科目
卒業研究(全科履修生のみ)
夏季集中科目
メニューここまで

自然言語処理('15)

※印刷用にはシラバスPDF版新規ウィンドウ をご利用ください
主任講師
黒橋 禎夫 (京都大学教授)
放送メディア
ラジオ
放送時間(平成29年度)
第1学期:(木曜)16時45分~17時30分

講義概要

日本語や英語などの自然言語は人間の知的活動の根幹をささえるメディアである。自然言語のコンピュータ処理に関する研究・技術分野を自然言語処理と呼ぶ。近年のコンピュータおよびコンピュータネットワークの進展とともに自然言語処理技術は劇的に進展し、ウェブサーチ、対話システム、機械翻訳などの応用システムが我々の日常に浸透しはじめている。本講では、その背後にある自然言語処理の仕組み、難しさ、今後の展開などを解説する。
※詳しくはシラバス

開設年度
平成27年度
科目区分
コース科目(情報コース(専門科目))
〔2009年度~2015年度〕専門科目(情報コース)
〔2008年度以前〕専門科目(情報コース)
科目コード
1570153
単位数
2単位
単位認定試験
試験日・時限
平成28年度 第2学期:平成29年1月24日(火曜)5時限(14時25分~15時15分)
平成29年度 第1学期:平成29年7月30日(日曜)6時限(15時35分~16時25分)
単位認定試験
平均点
(平成27年度 第2学期)75.6点
(平成28年度 第1学期)72.0点
備考
 
このページのトップへ本文ここまで

授業の目標

自然言語の性質、自然言語をコンピュータで処理するアルゴリズム、難しさ等を理解する。これによって、ウェブサーチや機械翻訳などの自然言語処理の応用システムを健全に利活用する能力を身につける。

履修上の留意点

計算機科学および確率統計の入門的科目を履修していることが望ましい。

シラバス

テーマ 内容 執筆担当講師名
(所属・職名)
放送担当講師名
(所属・職名)
1 自然言語処理の概要と歴史 まず、言語の働きと特徴を整理する。次に、自然言語をコンピュータで扱うことの難しさをまとめ、自然言語処理の基本問題、応用システムの概要を本講の構成とともに説明する。また、自然言語処理の歴史を概観する。

【キーワード】
自然言語、言語の働き、自然言語処理の難しさ、自然言語処理の歴史
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
2 文字列・テキスト処理の基礎 コンピュータで自然言語を扱う上での基礎的事項として、文字コードのきまり、文字列の辞書式順序、文字列の探索の基本アルゴリズムなどを解説する。

【キーワード】
文字コード、辞書式順序、ハッシュ法、トライ法
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
3 系列の解析(1) 文を単語に分割し、各単語の品詞、活用形などを求める形態素解析の方法を解説する。ラティス構造による文の分割結果からビタビアルゴリズムにより解を求める方法、また日本語解析において重要となる未知語の処理について説明する。

【キーワード】
形態素解析、ラティス構造、ビタビアルゴリズム、未知語処理
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
4 コーパスに基づく自然言語処理 近年の自然言語処理の発展は、文書を大規模に収集し、さらにそこに言語的解釈を与えたコーパスの活用によるところが大きい。コーパス構築の概要と意義、コーパス活用事例として言語モデル、さらに、分類問題としての自然言語処理の導入を行う。

【キーワード】
生コーパス、注釈付与コーパス、言語モデル、分類問題
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
5 系列の解析(2) 隠れマルコフモデル(HMM)による品詞タグ付け、さらに、機械学習に基づく系列ラベリングとしての品詞タグ付け、固有表現認識について説明する。

【キーワード】
隠れマルコフモデル(HMM)、品詞タグ付け、系列ラベリング、CRF、固有表現認識
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
6 意味の解析(1) 語の意味をどのように定義するか、また、辞書やシソーラスにおける意味の定義について説明する。さらに、同義性、多義性の問題を整理し、大規模コーパス中の共起をもとに計算する分布類似度、および語義曖昧性解消について説明する。

【キーワード】
内包的定義、外延的定義、メタファー、メトニミー、辞書、シソーラス、同義性、分布類似度、多義性、語義曖昧性解消
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
7 構文の解析(1) 文は一次元の語の並びであるが、その中には構文、すなわち語の結びつきの構造がある。その表現形式である依存構造表現と句構造表現、また、構文のコンピュータ処理の基礎となる文脈自由文法および代表的な構文解析法であるCKY法を解説する。

【キーワード】
依存構造表現、句構造表現、文脈自由文法、CKY法
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
8 構文の解析(2) 自然言語の文には多くの場合、構文的曖昧性がある。構文的曖昧性の解消の手がかりを整理した後、機械学習に基づく構文解析の代表的な手法であるグラフに基づく依存構造解析について、non-projectiveの場合、projectiveの場合のアルゴリズムを説明する。

【キーワード】
構文的曖昧性、グラフ表現に基づく依存構造解析、Chu-Liu-Edmonds法、MSTParser
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
9 意味の解析(2) 文の意味表現として、述語を中心とした述語項構造を考え、述語と項の関係として格や意味役割を考える。英語の注釈付与コーパスに基づく意味役割付与、また、日本語の大規模コーパスからの格フレーム構築とこれに基づく格解析について解説する。

【キーワード】
述語項構造、格、意味役割、意味役割付与、格フレーム、格解析
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
10 文脈の解析 あるまとまった情報や意図は文章として表現される。文章には、語句の間の照応関係や節・文の間の談話関係など、さまざまなつながりが存在する。これらの関係を明らかにする文脈解析について解説する。

【キーワード】
結束性、一貫性、共参照、照応、ゼロ照応、談話構造、RST
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
11 情報抽出と知識獲得 テキストからの情報抽出および知識獲得について説明する。情報抽出では主に固有名に関連する属性や、特定のイベントの主要な項目を発見する手法を説明する。知識獲得については、事態の間の関係の獲得と、それをまとめたスクリプトの構築について述べる。

【キーワード】
関係抽出、イベント情報抽出、事態間関係、スクリプト
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
12 情報検索 情報検索の基礎である転置インデックス、語の重要度の計算、情報検索の評価尺度について解説する。また、ウェブ検索におけるページの重要度尺度であるページランクを紹介する。

【キーワード】
転置インデックス、TF-IDF法、適合率、再現率、F値、MAP、ページランク
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
13 対話システム 音声認識・合成技術の成熟、自然言語処理技術の向上、携帯端末などの普及により、人間と自由に対話することができる対話システムが身近なものとなってきた。発話の意味、質問に対する応答、現在の音声対話システムの仕組みなどを解説する。

【キーワード】
ELIZA、SHRDLU、発話の意味、会話の公理、質問応答、音声対話、チューリングテスト
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
14 機械翻訳 ウェブの出現やグローバル化の進展にともない機械翻訳への期待がますます高まっている。近年の、コーパスに基づく機械翻訳の進展、それを支える統計モデルと評価尺度について解説する。

【キーワード】
統計的機械翻訳、用例に基づく翻訳、IBMモデル、単語アライメント、BLEU
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
15 まとめ 本講のまとめとして、これまでに説明してきた自然言語処理の基本解析のまとめと問題点の整理を行い、今後の改善について議論する。さらに、自然言語処理の応用システムの発展の方向性を展望する。

【キーワード】
クラウドソーシング、テキスト含意認識、多言語言論ネットワーク、言語生成
黒橋 禎夫
(京都大学教授)
黒橋 禎夫
(京都大学教授)
このページのトップへ本文ここまで
授業科目案内 教養学部 放送大学