AI/MLの分野が画期的な進歩を遂げる中、Best Path Researchはこの分野に新たな貢献をする論文をarxivに発表しました。
https://arxiv.org/abs/2403.00528
大規模言語モデル(LLM)の進歩の多くはユーザーエクスペリエンスにありますが、その知られている「知能」は、より多くの学習データを使用し、より大きなモデルを学習することによるものです。しかし、単に「大きく」することだけが、モデルをより良くする唯一の方法ではないことを強調したいと考えています。この分野を発展させ、より使いやすく解釈しやすいシステムを作るには、より優れたアルゴリズム、データ、モジュラリティの組み合わせが必要です。これに対してBest Path Researchは深い知識と経験を有しています。
Best Path Research の最新の研究で、日本の店舗のレシートから店名、住所、商品名などの固有表現(NE)を抽出するタスクについて、8 つのオープンソースの「生成型」 LLM と 2 つの既存の最先端 のBERT 言語モデルの性能を比較しました。
音声認識、手書き文字認識、機械学習、自然言語処理における数十年の経験に基づき、当社の手法は、既知の実績ある言語モデリング・アルゴリズムとLLMを効果的な方法で組み合わせています。そのような統合アプローチの一つは、言語モデルを用いた質問応答であり、当社CEOがフィリップスと東京工業大学でポスドクをしていた2000年代初頭に初めて開発し、発表したものです。当時、この手法はTREC(Text REtrieval Conference)やQuestion Answering Competitionsで事実型の質問に答えるために使われていました。
私たちの提案するアプローチでは、まずテキストをBest Path Research 社独自の製品化された光学式文字認識(OCR)システム(1%未満の文字エラー率)を使用して、紙のレシートのスキャン画像から抽出します。次にテキストをファインチューニングされた言語モデル(当社の研究では、LLMまたはBERTのいずれか)に送り、テキストから抽出したいNEカテゴリ(例:店名、住所、商品名など)に関する質問に答えるようにします。
最高のLLMはいくつかの数値NEカテゴリにおいて100%の精度と再現率を達成し、既存の最先端手法と同等以上の性能を示しています。また、元のOCR認識エラーの一部を修正できるなど、さらなる利点も示しています。
当社の研究では、日本の店舗のレシートからOCRされたテキストにLLMを使用したアプローチの有効性を実証していますが、この方法はテキスト文書から固有表現の抽出を必要とする、あらゆる言語やシナリオにも同様に適用できます。例えば、法律契約書の取引先名、住所、支払条件、財務報告書の収益変動や市場状況など、その他多くのシナリオに適用できます。
お客様のデジタル化および文書抽出の要件において、当社がどのようなお手伝いができるか、ご相談ください。