第 239 回 PTT のお知らせ


日時: 1998年5月28日(木) 18:30 から
場所: 慶応義塾大学理工学部(矢上キャンパス) 25棟601教室(予定)
東急東横線 日吉駅下車, 徒歩15分くらい.

日吉駅改札を綱島街道方向(渋谷方向に向って右)に出て,
渋谷方向に綱島街道に沿って歩きます. 
駅前の信号を含めて3つ目の信号(「仲の谷」交差点)で
右折し細目の道を直進. 
200mくらい行くと, 矢上キャンパスの入り口があります. 
現在, 工事中のため仮設階段をお上がり下さい(足元に御注意). 
12棟という教室棟につながっていますので, お入り下さい. 
入ってすぐの廊下に案内板を用意いたします. 

 地図は, 

http://www.st.keio.ac.jp/campus_info/way-to-yagami-jp.html
http://www.comp.ae.keio.ac.jp/lab/iijima/iijima/map/map.html
にございます. 

話者: 篠沢 佳久(慶應義塾大学大学院理工学研究科博士課程)
題目: 遺伝アルゴリズムを用いた文字認識後処理
概要: 内容:
現在さまざまな文字認識の研究が行なわれているが, 一文字だけを 対象とした認識手法では認識率に限界がある. そこで文字認識シス テムが出力した文字候補を組み合わせ, 単語もしくは文章として 再認識を行なう後処理によってさらに認識率を向上させる研究が行 なわれている. しかし後処理の対象を日本語の一般文章とした場合, 文字認識システムが出力する文字候補数が多い, もしくは文章が長 いとその組み合わせにより処理する計算量が膨大になってしまう.

そこで本研究においては遺伝アルゴリズムを用いて文字候補の組み 合わせによる計算量の削減と認識率の向上を試みた. まず始めに文 字認識システムの出力結果から文章を複数個作成し, 一文一文を自 然言語処理によって評価する. 遺伝操作においてはまず評価の低い 文章は選択淘汰により排除される. 残った文章は交叉によって組み 変えられ, より日本語らしい文章が作成されていくのである. しか しランダムに交叉させただけでは正しい文章を作成することはで きない. そこで提案する3種類の交叉マスクを遺伝操作の繰り返 しの段階ごとで使い分けて交叉を行なった結果, 効率良く認識率 の向上が可能なことを示した.


食事:駅ビルの東急デパートでいろいろな弁当を売っています. 他にも駅前にパン屋やハンバーガー屋があります.


第 239 回 PTTメモ


日時: 1998年5月28日(木) 18:30 から
場所: 慶応義塾大学理工学部(矢上キャンパス) 25棟601教室(予定)
題目:遺伝アルゴリズムを用いた文字認識後処理
話者: 篠沢 佳久(慶應義塾大学大学院理工学研究科博士課程)
出席者: 下國治, 和田英一(富士通研), 並木 美太郎(農工大), 石畑清(明大), 荻原昭徳(東芝), 横越俊彦, 大塚素(慶大), 山内斉, 多田好克, 前田敦司(電通大) 佐口泰之, 伊知地宏(富士ゼロックス), 田中哲朗(東大)
質疑応答:
現在さまざまな文字認識の研究が行なわれているが,一文字だけを
対象とした認識手法では認識率に限界がある.そこで文字認識シス
テムが出力した文字候補を組み合わせ,単語もしくは文章として再認識
を行なう後処理によってさらに認識率を向上させる研究が行なわれ
ている.しかし後処理の対象を日本語の一般文章とした場合,文字
認識システムが出力する文字候補数が多い,もしくは文章が長いと
その組み合わせにより処理する計算量が膨大になってしまう.そこで
本研究においては遺伝アルゴリズムを用いて文字候補の組み合わせに
よる計算量の削減と認識率の向上を試みた.まず始めに文字認識シス
テムの出力結果から文章を複数個作成し,一文一文を自然言語処理に
よって評価する.遺伝操作においてはまず評価の低い文章は選択淘汰
により排除される.残った文章は交叉によって組み変えられ,
より日本語らしい文章が作成されていくのである.しかしランダムに
交叉させただけでは正しい文章を作成することはできない.そこで提案
する3種類の交叉マスクを遺伝操作の繰り返しの段階ごとで使い分けて
交叉を行なった結果,効率良く認識率の向上が可能なことを示した.
(質問)文字認識の対象は何か?
(解答)オフライン文字認識です。
(質問)形態素解析の評価においては文の先頭から評価されることになるが、 均等に評価できるようにすべきではないか?
(解答)考えつきませんでした。現状では文の先頭から評価することになってし まいます。
(質問)品詞接続関係の交叉マスクを多用した場合元に戻すことができないの ではないか?
(解答)品詞接続関係の交叉マスクはある特定の時に、品詞接続が切断された時にのみ 用いるようにしております。
(質問)交叉点の使用は確率的に決めないのか?
(解答)決めておりません。
(質問)交叉マスクの選択が繰り返し回数に依存してしまうが、適応度などから 選択の仕方を決められないのか?またそうすべきではないか?
(解答)そうするべきです。また可能です。
(質問)評価関数のパラメータはどのように決めているのか?
(解答)実験的にです。
(質問)ここで言う認識率とは何か?
(解答)文章が完全に正解した割合ではなく、文字一文字一文字に対する割合のことです。
(質問)認識率においてばらつきは大きいのか?
(解答)一点交叉などランダムにしているものはばらつきは大きいですが、 他は大きくありません。
(質問)処理時間はどのくらいか?
(解答)Pentium-Pro( 言い忘れました )で文章生成方式では5分程度、GAでは1分程度です。
(ご助言) (参考文献)