BEST PATH RESEARCH
  • ホーム
  • BPRについて
  • サービス
  • 会社概要
  • ニュース
  • ブログ
  • お問合せ
  • English
  • 日本語

  • English
  • 日本語

  • By  Kenji Saito
  • 0 comments
  • 2024-03-09

論文発表“Large Language Models for Named Entity Extraction and Spelling Correction”

AI/MLの分野が画期的な進歩を遂げる中、Best Path Researchはこの分野に新たな貢献をする論文をarxivに発表しました。

https://arxiv.org/abs/2403.00528

大規模言語モデル(LLM)の進歩の多くはユーザーエクスペリエンスにありますが、その知られている「知能」は、より多くの学習データを使用し、より大きなモデルを学習することによるものです。しかし、単に「大きく」することだけが、モデルをより良くする唯一の方法ではないことを強調したいと考えています。この分野を発展させ、より使いやすく解釈しやすいシステムを作るには、より優れたアルゴリズム、データ、モジュラリティの組み合わせが必要です。これに対してBest Path Researchは深い知識と経験を有しています。

Best Path Research の最新の研究で、日本の店舗のレシートから店名、住所、商品名などの固有表現(NE)を抽出するタスクについて、8 つのオープンソースの「生成型」 LLM と 2 つの既存の最先端 のBERT 言語モデルの性能を比較しました。

音声認識、手書き文字認識、機械学習、自然言語処理における数十年の経験に基づき、当社の手法は、既知の実績ある言語モデリング・アルゴリズムとLLMを効果的な方法で組み合わせています。そのような統合アプローチの一つは、言語モデルを用いた質問応答であり、当社CEOがフィリップスと東京工業大学でポスドクをしていた2000年代初頭に初めて開発し、発表したものです。当時、この手法はTREC(Text REtrieval Conference)やQuestion Answering Competitionsで事実型の質問に答えるために使われていました。

私たちの提案するアプローチでは、まずテキストをBest Path Research 社独自の製品化された光学式文字認識(OCR)システム(1%未満の文字エラー率)を使用して、紙のレシートのスキャン画像から抽出します。次にテキストをファインチューニングされた言語モデル(当社の研究では、LLMまたはBERTのいずれか)に送り、テキストから抽出したいNEカテゴリ(例:店名、住所、商品名など)に関する質問に答えるようにします。

最高のLLMはいくつかの数値NEカテゴリにおいて100%の精度と再現率を達成し、既存の最先端手法と同等以上の性能を示しています。また、元のOCR認識エラーの一部を修正できるなど、さらなる利点も示しています。

当社の研究では、日本の店舗のレシートからOCRされたテキストにLLMを使用したアプローチの有効性を実証していますが、この方法はテキスト文書から固有表現の抽出を必要とする、あらゆる言語やシナリオにも同様に適用できます。例えば、法律契約書の取引先名、住所、支払条件、財務報告書の収益変動や市場状況など、その他多くのシナリオに適用できます。

お客様のデジタル化および文書抽出の要件において、当社がどのようなお手伝いができるか、ご相談ください。

Tags:
news

Search

Recent News

  • 論文発表“Large Language Models for Named Entity Extraction and Spelling Correction”
  • Intel Connection 2023にBEST PATH RESEARCH が出展
  • ナビットの「お仕事 PICKUP」に BEST PATH RESEARCH が紹介
  • 論文発表 “Automatic Detection and Rectification of Paper Receipts on Smartphones”
  • 論文発表 “Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images”

Recent Blog

  • 日本語レシートOCRと名前付きエンティティ抽出:AWS SageMaker ServerlessとTriton Inference Serverを使用した複数モデルによる低コスト推論
  • iOS 用自然言語による画像検索

BEST PATH RESEARCH © 2023 All Rights Reserved