OCRと自動翻訳

Last-modified: 2007-08-26 (日) 22:56:29

ソフトとか

ソフト名種別エンジンEJ品詞評価参考価格
明解翻訳 スタンダード ダウンロード版翻訳クロスランゲージ名詞/動詞/形容詞/副詞辞書ファイルの一括読み込みができないのでダメダメ2,625円
e.Typistv.12.0アップグレード版ダウンロードOCRこれしか使ったことないんですけど、それほど不満はないです。4,515円

※評価はグローランサの文献を翻訳するのにどうか、という一点なので、ソフト全体の評価ではありません (^Q^
※「いいソフト」だけではなく「ダメなソフト」を積極的に載せると やっちまった...orz という被害者が減るのでよいと思います(俺のことかー) (^^;

マングースのPDFの下処理

PDFから抽出したテキストファイルは、ページ単位ではまとまっているが、段落が正しく並んでるとは限らない。これは手作業で修正していくしかない。
翻訳ソフト用の下処理として、秀丸で次の正規表現で置換。大文字小文字を区別にチェックをつけるのを忘れずに。

順序検索対象置換文字列
1([a-z])\n([a-z]\|[0-9]\|-)\1 \2
2([,:;\-]\| the\| or\| and)\n([a-zA-Z0-9])\1 \2
3\.\n([A-Z0-9].{1,50}[^!?.])\n\.\n\n\*\1\n\n

これでも正しくなるわけではないけど、だいぶ作業しやすくなります。

おおよその手順

自動翻訳編

1.対訳wikiのデータを辞書として整形して読み込む。

2.まずは翻訳してみる。

3.対訳wikiで未訳の単語がうまく翻訳されたら対訳wikiに登録。

4.読みたい部分をじっくり読んで、訳されていない固有名詞に適切な訳語を考える。

5.グローランサwikiかここに投稿して他の人に意見を聞いてみる。

6.なんとなく合意がとれたら対訳wikiに登録。

7.他の人が翻訳辞書として使えて (゚Д゚)ウマー

OCR編

※最近の出版物はPDFで発売されることが多いので、そちらを使うとよいですね。
[tip] Drive Thru RPG.COMでGtSA関連がPDFで販売されています


1.OCRで読み込む。

2.対訳wikiのデータを解析辞書として整形して読み込む。

3.全文解析をかけると認識できない単語が赤くなる。

4.赤くなった単語のスペリングを確認。間違っていたらスペリング修整、あっていたら解析辞書に登録。メモ帳にもコピーしとく。

5.もう一度全文解析。3に戻って、赤くなる単語がなくなるまで続ける。

6.メモ帳の単語を対訳wikiに登録。出典を忘れずに(綴り間違い対策)

7.他の人が解析辞書として使えて (゚Д゚)ウマー

コツとか

  • マルチページTIFFとかPDFとかで複数ページに対してもかけられるけど、あとから開きなおしたり画像補正かけること考えると、見開きで1ファイルとするほうが作業がラクです。
  • 解析辞書には先頭大文字と先頭小文字と両方登録しておいたほうがよい(少なくともe.typistは別単語として認識する)。
  • 解析辞書は(少なくともe.typistは)熟語を登録できないようなので解析辞書を生成するときに、スペースで分割してやるとよい。さすがに[Lhankor Mhy]で[Lhankor]と[Mhy]に項目を分けて登録していては何がなんだかわからなくなりそう。
  • とりあえずExcelで解析辞書を生成するやつをつくります。

コメントとか