12月15日(水)

飛行機の中で寝ている。1時間ほどして、1時頃に飲み物の配布で目が覚める。さらに寝るために、おにぎりと白ワインをもらう。


ここでまたすぐ寝る予定だったのだが、ワインを飲んだらなんか具合が悪くなってきた。冷や汗をたくさんかいて寒い。トイレに行こうと立ち上がったが、トイ レに行く途中の通路で一瞬気を失って倒れる。これはヤバいと思い、席に戻って座る。左目が見えない。寒いので毛布をかぶってひたすら我慢。ワインがよくな かったのかなあ。あるいはエコノミー症候群で脳がいかれたか。

しばらくすると体が温まってきて、2時間ほど寝ることができた。しかし、腰が痛くて長く寝ることができない。うとうとしては起きるということを繰り返しているうちに、現地時間4時過ぎ(日本時間5時過ぎ)に朝食の配布。眠いというよりも気分が悪い。

朝食は和食と洋食が選べたが、和食をもらう。ご飯、さば、切り干し大根、サラダ、果物、ヨーグルト。飲み物はオレンジジュース、食後はコーヒーをもらう。

食べ終わった後、ビデオのディスカバリーチャンネルで二酸化炭素吸収装置の話を見る。ビデオのメニューでディスカバリーチャンネルのとなりが「けいおん!」だった。

その後はシンガポールの入国書類を書いたり。

6時15分頃チャンギ空港に着陸。無事入国して、家に電話。荷物も出て、到着ロビーへ。

いったんホテルまで地下鉄で移動して、そこで荷物を置いてから学会会場に行く予定。いまいるのは第1ターミナルだが、地下鉄駅は第2ターミナルにあるということなので、シャトルで第2ターミナルに移動。

第2ターミナルでは、深く深く潜ってホームへ。

今回は何回か地下鉄に乗る予定なのでプリペイドカードを買おうと思ったが、自販機では売っていないので、 サービスカウンターで購入。ez-link cardというらしい。カード自体が5ドルで、さらに7ドルのチャージ分を同時に買うことになっている。

というわけで地下鉄。今回乗った地下鉄は、分岐駅のタナ・メラが終点なので、そこでジュー・クーン行きに乗り換える。ラベンダー駅で降りて、5分ほど歩いてホテル。

今回のホテルは、1階に小さいセブン−イレブンが入っていて便利そうだ。

フロントの人にお願いして、キャリーバッグとパックパックを預かってもらう。必要なものだけ取り出して、先月買った無印良品の折りたたみバッグに入れる。

時間はまだ7時半なので、先にホテルに来ている咸さんと安斎くんがいるはずなので、フロントで部屋番号を聞き、電話する。8時に出発とのことなので、少し 待って一緒に行くことに。待っている間にセブン−イレブンでルートビアを買い、飲みながら待つ。ルートビアを飲むと外国に来たなって感じ。

8時に二人が降りてきて、一緒に出発。ラベンダー駅からさらに町中を通過し、ブオナ・ビスタ駅。満員電車状態で結構混んでいる。

ブオナ・ビスタで降りて、歩道橋みたいなところをわたって道の反対側に回り、5分ほど歩いて会場へ。


3階が受け付け、4階が会場なので、まず3階で受付をする。今回のカンファレンスバッグは布のトートバッグ。

会場には開会式の途中で入場。係の人に案内されたら、ステージ横の入り口だった。後ろの扉から入れてくれよ。

というわけで会議の各種データ。投稿数329(一般205)、採択率49%。約半分の論文は日本からの投稿。査読者の査読報告の単語数の分布とかが出て受けていた。ほとんどの査読報告が200語以下。

Social Programの説明の後、キーノート。

9:00- Keynote 1

Upcoming MPEG Standards: HEVC and MMT and their prospects (Joern Ostermann, Leibniz University Hannover)
・映像符号化の歴史。MPEG-2からAVCへ。
・アメリカの夕方のインターネットトラフィックの20%が高画質ビデオ(YouTubeではない)。
・次世代ビデオコーデックへの要求。(AVCより50%高効率が目標)
・現状でのHEVC(High Efficiency Video Coding)の概要。
    テストモデル 2010/4
    HEVC Model HM 1 2010/10
    AVCより30%高効率
    64×64の最大ブロック(LCU)を最適分割してコーディングブロックを決める
    複数のフレームを使った動きベクトル推定
    動き補償のためのフィルタの違い
    デコーダ側での動き補償
    整数DCT
・HEVTの次に向けて
    UHDTV用のコーデック
    オーディオコーディングへの影響:画面が大きいと立体音響が必要
・DASH: HTTP経由の映像配信(Download and Adaptive Straeaming over HTTP)
・MMT: MPEG Media Transport

ここでティーブレイク。鹿野先生、河原先生と少し話をする。


午前後半はポスターも面白そうだったのだが、疲れているのでオーラルセッションを聞く。

10:30- Speech and Language Processing

Front-end Diversity in Fused Speaker Recognition Systems (U of New South Wales)
複数のVAD、特徴量、分類器による結果を組み合わせることで話者認識の性能を上げる。特徴量として、MFCCの他、振幅スペクトルを窓内で積分するとき に重みをつける特徴量(SCM)などを使う。また、フィルタバンクの形をガウス型、ガンマトーン型にしたものも比較した。さらに、MFCC(など)の特定 のサブバンドを除いたときの性能を評価した。同様に、ケプストラム計数の特定の次元を除いた実験をして、ケプストラム次元の影響を評価した。どれを混ぜて もそう大きく変わるわけではないので、いまいち結論ははっきりしない感じ。

Robust Voice Activity Detection for Interview Speech in NIST Speaker Recognition Evaluation (Hong Kong Polytechnic Univ)
雑音に頑健なVAD。スペクトル減算に基づく方法。NISTのデータベースで比較した。SSと通常のパワーベース、またはSSと統計量ベースのVADを組 み合わせることでよい性能が得られる。強いSSをかけると波形がひずむので聴感品質や認識性能は下がるが、VADの性能は上がるという指摘がおもしろかっ た。

A Fast Convergence Speech Enhancement Method (Beijing U of Tech)
背景雑音が変化した時に速やかに収束する音声強調手法。まず、現在のパワースペクトルとパワースペクトルの長時間平均を比較し、大きく変化しているような らスペクトルの変化店として検出する。次に、VADとして対数尤度比とスペクトルエントロピーを組み合わせた方法を使う(雑音のタイプによって得意不得意 があるらしい)。それで、スペクトルが急激に変化していて、音声でない部分を使って雑音の特徴を再学習する(らしい)。肝心の再学習のところがよく理解で きなかった。

Fundamental Approximation in a Reproducing Kernel Hilbert Space for Speech Estimation in Noisy Environments (NICT)
居眠りして前半聞き逃した。残念。高次統計量を使う音声強調。従来のウィーナフィルタなどの手法を特殊なケースとして含む。

An Efficient Prosody Adaptation Method and its Application to HMM-Based Speech Synthesis (Tokyo Inst Tech)
HMM音声合成のための韻律モデルの話者適応手法。韻律予測はHMMではなくてダミー変数回帰。話者の多数の音声から学習したモデルで合成した音声と、適応したモデルから合成したモデルの主観評価による比較。肝心の適応手法がよく理解できなかった。

昼にはちょっとしたビュッフェみたいなものが出るんだけれど、せっかくだから外に食べに行くことに。この辺にはカフェみたいな店がある。イタリアンっぽいところにとりあえず入り、シーフードスパゲティを頼む。なんだか中華風味スパゲティ。

午後からAPSIPA総会があるのだがパス。そうすると、15時半まで暇なので、どこかを見物することに。遠くまでは行けないので、ガイドブックに載って いるところで近い場所を探し、ホランド・ビレッジのショッピングセンターとフードコートを見物することに。バイオポリスから地下鉄の線路を挟んで反対側あ たりにあるはず。

建物の外にでて歩く。蒸し暑い。15分ほど歩いて、それらしい建物に到着。最初にあるのはショッピングセンター。

建物の1階は食料品売場。2階と3階には、雑貨や服、ネイルサロンなどの小さい店が軒を連ねている。
 
途中の靴屋で安斎くんがサンダルを購入。また、LUSHみたいな石鹸屋があったので、おみやげに石鹸を買った。

ショッピングセンターを出て、そこからさらに奥へ。途中に「ショッピングモール」と書かれた建物があったので入ってみたが、なんか大した物がなくてがっかり。


その先にあるホランド・ビレッジ・マーケット&フードセンターは、要するにフードコート。

昼食はもう取ったので、食べ物はいらないのだけど、せっかくなので龍眼豆花を食べる。ほんのりした甘さがおいしい。


食べ終わって、とりあえずみる物もみたので帰ることに。暑いし疲れたので、タクシーでバイオポリスまで。

戻ってみるとコーヒーブレイク中。なんか揚げ餃子みたいな物がある。お菓子として、ココナツ味のすあまみたいなのがあって、結構いける。

15時半から午後後半のセッション。

15:30- Audio and Speech Processing

A Study of Topic Modeling Techniques for Spoken Document Retrieval(NTNU)
Berlin Chenのところ。クエリの単語が含まれている音声ドキュメントの検索ではなく、トピックが類似しているドキュメントの検索を目指す。ということでトピッ クモデルPLSA/LDAを導入し、トピックからクエリが生成されるというモデル化にする。WVM(Word Vicinity Model)というのは初めて聞いたが、単語からトピックが生成され、そのトピックからまた単語が生成されるというモデルらしい。対象が中国語なので、単 語だけでなく音節もインデキシングに使う。さまざまな手法を比較評価。

Supervised Acoustic Topic Model for Unstructured Audio Information Retrieval (U of South Calif.)
音の文脈依存性を扱うために、音のBoFを使ってトピックモデル(LDA)を作る。Acoustic WordはMFCC+VQ。トピックモデルを作った後に、入力信号とトピック確率の両方を入力として入力信号を識別する。また、識別器で識別することを前 提に、識別性能を上げるようにLDAを教師つき学習する。応用として、オーディオクリップのタグ識別をやってみた。教師付きLDAは単なるLDAより ちょっとよい。絶対性能は30〜40%。GMMと比べてどうなのか聞いてみたが、VQで情報が落ちているのでGMMよりは悪いという答え。

Posterior Weighted Bernoulli Mixture Model for Music Tag Annotation and Retrieval (Academia Sinica)
音楽クリップからタグを自動推定する。なにがタグなのかははっきりしないが、ジャンルや使用楽器を想定しているらしい(rockとかguiterとか)。 MIRToolboxを利用して特徴量を抽出。特徴量のGMMを作成し、各分布を隠れクラスだと解釈して、それをさらに特徴量としてタグの確率を推定す る。推定には、Bernoulli Mixture Model (2値の離散分布の混合分布)を使う。この手法はMIREX2010で勝ったらしい。

Modeling Broadcast News Prosody using Conditional Random Field for Story Segmentation (Northwestern Polytechnic Univ)
韻律などを使ってニュース音声を話題に区切る。特徴量は、ポーズやイントネーション、語末の引き延ばし、話者交代、音楽がかかるかどうかなど(音楽がかかると話題の区切りであることが多い)。区切りの推定はCRF。SVM、決定木、MEなどよりもちょっと高性能。

On Grating Lobe Elimination of Difference Frequency In Parametric Loudspeaker (Nanyang Tech U)
パラメトリックスピーカで指向性を作るときに、2つの超音波の差を使うが、その2つの超音波の周波数によって望まない方向に指向性ができる。それを分析したという話のようだけれど、後半よくわからなかった。

セッション終了後はレセプションだが、申し込んでいないので(申し込みが必要だった覚えはないのだが、とりあえずチケットはもらえなかった。チケットを持っている人が多い)、別行動ということで研究室の2人と一緒にチャイナタウンへ。

地下鉄でオウトラムパークまで行き、そこから歩いてチャイナタウンへ。

小雨が降っていたので、スミスストリートやパゴダストリートには出店は出ていなかっ た。それでも、おみやげ屋を冷やかしたりしながら歩く。

なにを食べようか迷って、結局チリクラブを食べようと近くの店へ。

店ではまずビールを頼み、チリクラブ、シーバスの甘酢あんかけ、豆苗の炒め物、揚げ餃子、チキンライスを注文。チキンライスはないということで、適当にモヤシとワンタンの何かを頼む。

チリクラブは、蟹の殻をまず道具で割って、中身を出してから自分でチリソースと混ぜて食べる。うまいが、面倒くさい上に手が汚れる。次来たときはエビチリでいい気がする。
 
腹一杯飲み食いして、税金などを入れて122ドル。3人分なので、一人3000円しない計算。安いよね。

雨が止まないのだが、傘を宿に置いてきてしまったので、仕方なく傘を買うことに。3つで10ドルのおみやげ屋で傘を買い、ついでにペンセットと財布を買う。財布は3.33ドルの割には立派。


夜も更けてきたので、タクシーで宿まで移動。宿でチェックインし、2時間5ドルのインターネットチケットを買う。しかし、ネット接続をしてなんかする気力もなく、22時前に寝る。今日は疲れた。


前の日へ 目次へ 次の日へ
inserted by FC2 system