
- By BPR
- 0 comments
論文発表 “Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images”
BEST PATH RESEARCH は、最先端のエンコーダ・デコーダトランスフォーマモデルを用いたエンドツーエンドの光学式文字認識(OCR)」に関する最新の研究をarXiv学術論文リポジトリに掲載しました:
https://arxiv.org/abs/2212.05525
この研究は、2022年の6ヶ月間、研究インターンとしてリモートで一緒に働いてくれた名 古屋大学の博士課程に在籍するチャン・ホンクアン(Hongkuan Zhang)が中心となって行いました。
一緒に開発した技術は、マイクロソフトが開発した「TrOCR」と呼ばれる事前に学習させ たエンコーダ・デコーダ変換モデルをベースモデルとして使用しました。 この強力なベースモデルをベースに、我々は、レシート画像全体に対してモデルを学習させるまで、徐々に大きな画像チャンクでベースモデルを「微調整」する新しい方法を開発しま した。
実験には SROIE の英語の領収書データセットを使用し、異なる画像チャンクサイズがOCRエラー率に与える影響を分析しました。これにより、最終的なモデルは、画像補正やテキス ト検出などの画像前処理を一切行わずに、領収書の画像全体を入力として取り込み、領収書に記載された内容に対応するテキスト文字列を出力することができました。TrOCRの基本モデルで使用される「パッチ」のサイズが比較的小さく固定されているため、画像全体よりも小さなチャンクを使用した場合、文字誤り率4.98%という最高の結果を得ることができました。
私たちは、この研究成果とこの出版物の両方が、技術の現状に大きく貢献するものであり、 BEST PATH RESEARCH がインターンと協力して、企業と学生の両方に利益をもたらす技術を開発・発展させていることを実証したと考えています。
BEST PATH RESEARCH は、最先端の機械学習の研究開発プロジェクトに取り組むインターンを受け入れることを非常に喜んでおり、そのために競争力のある給与を支払う予定です。当社でのインターンシップに興味のある学生の方は、ぜひご連絡ください!
Keywords: Optical Character Recognition (OCR), PyTorch, Encoder-Decoder Transformer Models, TrOCR, End-to-end Training, Fine-tuning, Collaboration, arXiv