BEST PATH RESEARCH
  • ホーム
  • BPRについて
  • サービス
  • 会社概要
  • ニュース
  • ブログ
  • お問合せ
  • English
  • 日本語

  • English
  • 日本語

  • By  BPR
  • 0 comments
  • 2022-12-13

論文発表 “Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images”

BEST PATH RESEARCH は、最先端のエンコーダ・デコーダトランスフォーマモデルを用いたエンドツーエンドの光学式文字認識(OCR)」に関する最新の研究をarXiv学術論文リポジトリに掲載しました:

https://arxiv.org/abs/2212.05525

この研究は、2022年の6ヶ月間、研究インターンとしてリモートで一緒に働いてくれた名 古屋大学の博士課程に在籍するチャン・ホンクアン(Hongkuan Zhang)が中心となって行いました。

一緒に開発した技術は、マイクロソフトが開発した「TrOCR」と呼ばれる事前に学習させ たエンコーダ・デコーダ変換モデルをベースモデルとして使用しました。 この強力なベースモデルをベースに、我々は、レシート画像全体に対してモデルを学習させるまで、徐々に大きな画像チャンクでベースモデルを「微調整」する新しい方法を開発しま した。
実験には SROIE の英語の領収書データセットを使用し、異なる画像チャンクサイズがOCRエラー率に与える影響を分析しました。これにより、最終的なモデルは、画像補正やテキス ト検出などの画像前処理を一切行わずに、領収書の画像全体を入力として取り込み、領収書に記載された内容に対応するテキスト文字列を出力することができました。TrOCR の基本 モデルで使用される「パッチ」のサイズが比較的小さく固定されているため、画像全体より も小さなチャンクを使用した場合、文字誤り率 4.98%という最高の結果を得ることができ ました。

私たちは、この研究成果とこの出版物の両方が、技術の現状に大きく貢献するものであり、 BEST PATH RESEARCH がインターンと協力して、企業と学生の両方に利益をもたらす技 術を開発・発展させていることを実証したと考えています。 BEST PATH RESEARCH は、最先端の機械学習の研究開発プロジェクトに取り組むインタ ーンを受け入れることを非常に喜んでおり、そのために競争力のある給与を支払う予定で す。当社でのインターンシップに興味のある学生の方は、ぜひご連絡ください!
Tags:
news

Search

Recent News

  • AI活用型ペネトレーションテスト
  • 論文発表“Large Language Models for Named Entity Extraction and Spelling Correction”
  • Intel Connection 2023にBEST PATH RESEARCH が出展
  • ナビットの「お仕事 PICKUP」に BEST PATH RESEARCH が紹介
  • 論文発表 “Automatic Detection and Rectification of Paper Receipts on Smartphones”

Recent Blog

  • 私のClaude Code体験記:身につけるべき開発者スキル
  • 日本語レシートOCRと名前付きエンティティ抽出:AWS SageMaker ServerlessとTriton Inference Serverを使用した複数モデルによる低コスト推論
  • iOS 用自然言語による画像検索

BEST PATH RESEARCH © 2023 All Rights Reserved