8月21日（土）

朝5時半に起床。まだ早いので、1時間ほど日記を書いたりする。身支度をして、7時に朝食。今日はお粥にしてみた。

8時半出発。外は雨が降っていて涼しい。ホテルの前でタクシーを拾い、会場の首都師範大学へ。2008年と同じ場所だ。

会場には相変わらずろくな表示がないが、一昨年と同じく2階に行ってみると受付をやっていた。少し待って受付をしたが、予想通りというか、二人分登録をしたはずが一人しか登録されていなかった。いろいろ主張して、二人目の登録をその場でしようとしたのはいいが、クレジット決済がその場ではできず（現金払いもなし）、しかも学会の領収書は後から郵送だという。怪しすぎる。いろいろ主張したあげく、結局後からクレジットカードの伝票を郵送してもらい、サインして送り返すことになった。事後の手続きがきちんと進む気がしない。この状態で大学から学会参加費ちゃんと払ってもらえるかなあ。名札や参加章もないし。

会場の方に行ってみると、別な学会をやっている。NLP-KEは元々MCAI(Multi-Conference on Artificial Intelligence)の一部なのだが、それとは別にFOSSIL X3 （国際古昆虫学会）というのをやっていて、しかも会場内でその2つの学会の発表会場が混ざっている。信じられん。

9時半からオープニング。プログラムチェアが説明。最初に採択率の説明があり、210編の投稿中、long paperが70件、short paperが30件採択。どうみてもそんなに採択率が低いようには思えないが。

その後最初のキーノート。Wright State University （オハイオ）のNicolaos Bourbakisによる“ Automatic Image-to-NL-Text Conversion and SPN Representatons”。

前半は、画像を自然言語に変換する話。最初は画像理解の話で、まず画像を領域に分割し、領域間の関係をグラフ(Local-Global Graph)で表現する。次に様々な物体の領域間の関係をモデル化し、モデルと観測物体とを逐次的にマッチングすることで物体を理解する。さらに、グラフを対応する言語表現に変換するルールを適用する。最低レベル（単純な線や領域の関係）から始まって、認識された物体を文テンプレートに当てはめて文生成をする方法まで。応用として、スマートホームで自然言語による画像検索みたいなものが紹介された。

後半は、SPN Representationsがテーマ。SPN(Stocastic Petri-Net)を使い、文の中の事物たち(Agent-Action-Patient)の関係をネットワークで表現する。文に対する複数の解釈を同時に表現するSPNを作り、外部情報によってどこかのノードを活性化すると、特定の解釈に対応するノードたちの活性度が上がるというモデル。異なる画像の理解内容を同時にSPNで表現することで、2つの画像の対応と消失した物体の解釈などが得られる。

全体的に、Old AIの雰囲気が漂う気が。キーノートなので数式などを省いたのかもしれないが、全体的に学習ベースでやる雰囲気は薄かった。

2 番目のキーノートは、Christian Boitetによる“MT on and for the Web”。最初は機械翻訳についてのチュートリアル。C×A×Q定理（カバレージ×自動性×品質≦100%）というのは初めて聞いた。時間配分がいまいちで、前半だけで持ち時間が終わってしまった気がする。

キーノートはやや遅れて終了し、ランチへ。昼食チケット付きで、前回と同じく建物の中の食堂でビュッフェ。いってみるとすでに席は満席で、しかも入りきらない大量の人が皿を持って料理に群がっている。運ばれてきた料理にハイエナのように群がる人々。待ちきれなくて立ち食いを始める人も多数。さすがは中国だね。

我々は皿に半分ぐらいしか料理が取れなかったが、これ以上どうしようもないので、何とか席を確保して食べる。これがサバイバルランチってやつですか。

サバイバルランチを一瞬で終えて、食堂の上のロビーでお休み。でも、ロビーも人が多くて落ち着かない感じ。

だったので、横にあるコーヒーショップでコーヒーを飲みながら休む。

14時から午後のセッション開始。私は Language Analysis and Modeling のセッションを聞く。

○Chinese Base Phrases Chunking Based on Latent semi-CRF Model (大連国立大)
統計モデルを使って中国語をbase phrase（文節みたいなもの）に区切る。semi-CRF modelを使いたいが、正規化ですべての候補を考慮しなければならなくて計算量が多いので、間に隠れ状態を挟むことで考慮すべき候補の数をn-best に落とす（？よく理解できなかった）。説明だけではsemi-CRFとMaxEntの違いがよくわからなかった。ほかの方法（ルールベース、統計ベース）より高性能。

○Detection and Correction of Real-World Spelling Error in Persian Language (テヘラン大学)
ペルシャ語のスペルチェッカ。ここでの「Real-World error」とは、ミススペルの結果が別な単語になってしまった物を指す（form→fromなど）。ペルシャ語は母音を表記しないので、同形異義語が多くなるため、こういう研究が必要らしい。混乱しやすい単語ペアをレーベンシュタイン距離によって調べるが、音価が同じでも表記が違う文字があるため、表記を考慮して距離を決める。怪しい単語に対して、周囲の単語との相互情報量を計算し、混同リストの他の単語に置き換えたときの相互情報量と比較する。実験ではスペルミスが文あたり1カ所だと仮定。F値は80％前後。

ここでPC接続トラブルによって少々休憩。次の発表を最後に回す。

○A Morphology-based Chinese Word Segmentation Method
中国語の単語分割。CRFベースだが、CRFは単語内の藻時間の関係(morphology)を考慮に入れていないので、それを入れましょうという話。従来のCRFでのラベリング（語頭、語中、語末、単漢字語）にくわえ、その文字が形態論的にどういう文字なのか（接頭辞、接尾辞など）を入れたラベルを推定する。単なるCRFよりもF値で0.5%ぐらい向上。形態論付きラベルの精度を聞いてみたが、95%程度だそうだ。

ここで再び接続トラブルにより休憩。発表者前の発表の間に何をやっていたんだ。このグダグダっぷりが中国らしいといえばいえるが。

○Part-of-Speech Tagging for Chinese Unknown Words in a Domain-specific Small Corpus Using Morphological and Contextual Rules (台湾国立科技大)
トラブルの後に始めたはいいが、途中でまたスライドが映らなくなり、さすがにかわいそうになった。

内容は中国語の未知語に対する品詞タグ付け。接頭辞や接尾辞などの形態素によって単語全体の品詞を決める（「～界」が名詞、等）ルールを利用する。同時にコンテキストの情報も利用して品詞を推定する。

○Comparative Evaluation of Two Arabic Speech Corpora
No Show。

○An Unsupervised Approach to Preposition Error Correction
No Show。

ここでやや遅れてコーヒーブレイク。FOSSILの方のコーヒーブレイクが豪華で、NLP-KEの方はしょんぼり的な感じ。登録費が安いから仕方ないけどさ。

午後からはClassification and Summaryのセッションを聞く。

○Marine Literature Categorization Based on Minimizing the Labelled Data (Ocean U. of China)
海洋関係の文献の分類システム。教師なし適応(Co-training)によって分類性能を上げる。分類器はMaxEnt。タイトルや概要に特定のキーワードが現れたかどうかが特徴量であり、全体の特徴を2つに分けて交互に適応する（co-training)。発表の英語がひどく、いまいち何を言っているかわからなかった。Co-trainingを使うのはいいが、どこがポイントなのかもよくわからない。

○Feature Selection for Chinese Text Categorization Based on Improved Particle Swarm Optimization (BUPT)
最初に著者による自己紹介がある珍しい発表。文書分類のための特徴選択。TFIDFとχ2乗値を重み付けで足した物を要素とした文書ベクトルを考え、その中から重要な単語を選ぶことで次元を低減する。たくさんの特徴から最適な部分空間を探す問題を最適化問題ととらえて、Swarm Optimizationを使う。考え方の話と実装の話がごっちゃになってわかりにくかった。

○Combining Classifiers for Supertagging Arabic Texts
No Show。

○Boosting Performance of Gene Mention Tagging System by Classifiers Ensamble
遺伝子関係文献の固有表現のタグ付け(Named Entoity Recognition)。6つの分類器を組み合わせて性能を上げる。肝心の分類器組み合わせの方法がぜんぜん理解できなかった。Two-layer stackingを使うとのことだが、原論文を読まないとたぶん埒があかない。CRF++と比較して、F値で1.5%ほど向上。

○Multi-document Summarization Based on Improved Features and Clustering (BUPT)
この人は英語は上手だが、頬杖を付きながら発表。複数の文書を一つに要約する。パラグラフを単位としてクラスタリングすることでサブトピックを発見する。パラグラフから文書ベクトルを作り、相互情報量ベースで特徴を選択する。クラスタリングはボトムアップ階層的クラスタリング。キーワードの重要性からパラグラフを選び、同様にキーワードを使ってパラグラフの中から少しずつ文を削っていく。評価の方法がいまいちわからなかった（要約の良さ自体を計っていない気がする）。

○A Method for Genrating Document Summary using Field Association Knowledge and Subjectively Information （徳島大）
徳島大だが任先生のところではない。留学生のようだが英語の発音はめちゃくちゃ。いったい何語の訛なんだろうか。～nを～ntと発音するのが特徴的。

対象はブログの要約。"Field association word"（特定のトピックに関連する単語）と、"subjectivity" （2つの単語の関係が主体的かどうか：「試合」と「勝利」など？）を使うようだがよくわからない。要約文の生成には属性文法を使うということだが、これまたよくわからん。論文には生成ルールがたくさん載っている。「学習」という単語が出てこないので、手書きルールベースのような気がする。

○An Map Based Sentence Ranking Approach to Automatic Summarization (CAS)
要約問題を文のランキング問題ととらえて、文書内の文を重要な順番にランキングする方法を学習する(Learning to Rank, LTR)。文のペアを入力として、どちらのランクが上かを出力するSVMを学習する。また、平均精度(MAP)を基準としてSVMを学習する。

○Automatic Classification of Documents by Formality
No Show。

学会終了後、どうしようか少し悩む。またサバイバルディナーは嫌だが、外は雨なのであまり出歩く気もしない。とりあえず食堂に行ってみると思いのほか空いていたので、ここで夕食を食べることに。

なんとか席を確保して料理をとる。隣の席には、さっき発表していた徳島大の人が来ている、

そそくさと食べて、外に出る。まだ小雨が降っている。大学から戻ろうとしていたタクシーを拾い、ホテルに戻る。

ホテルの部屋で一休みし、メールを読んだり家に電話したりする。増村君は明日のためにシャドウプレゼン中。でも明日の午前はがないのでどこかを見学予定。

11時ごろ寝る。

前の日へ　目次へ　次の日へ