40%引きでご購読
新規!💥 ProPicksを手に入れ、S&P 500を1,183%を超える投資成績を実現した、戦略をご覧ください40%割引で開始

【話題】NTTがAIに「視覚読解」の能力を付与、文書画像から質問に回答する技術を確立

発行済 2024-04-12 14:11
更新済 2024-04-12 14:35
© Reuters. 【話題】NTTがAIに「視覚読解」の能力を付与、文書画像から質問に回答する技術を確立

[日本インタビュ新聞社] - ■大規模言語モデル「tsuzumi」で実現、オフィスワークや日常生活を支援

 近年、AI技術は目覚ましい発展を遂げているが、従来のAIはテキスト情報しか理解できないという課題があった。NTT(日本電信電話)<9432>(東証プライム)は4月12日、大規模言語モデル「tsuzumi」を用いて、文書画像に含まれる視覚情報も理解できる「視覚読解技術」を開発したと発表。同技術により、AIは文書画像を提示されただけで、あらゆる質問に回答することが可能となる。

 私たちが扱う文書は、テキスト情報だけでなく、図表や写真などの視覚情報も含まれている。しかし、従来のAIはテキスト情報しか理解できず、視覚情報を取り込んだ文書を理解することは困難だった。そこでNTTは、視覚情報も理解できるAIの実現を目指し、研究開発を進めてきた。

 大規模言語モデル「tsuzumi」を用いて、視覚情報も理解できる「視覚読解技術」を開発。文書画像をLLMの表現に変換するアダプタ技術と、多様な視覚読解タスクを対象とした指示遂行データセットの構築によって実現した。AIは文書画像を提示されただけで、あらゆる質問に回答することが可能となる。例えば、請求書から必要な情報を抽出したり、専門文献から特定の情報を見つけたりすることができる。

 NTTは、この技術を基に、視覚表現された文書を基に質問応答を行う技術やWeb検索など、産業上重要なサービスの発展に貢献していく予定。また、作業自動化をはじめ、ヒトと協働し、価値を生み出すAIの実現に向けて技術確立をめざしていく。同成果は、2023年度における東北大学データ駆動科学・AI教育研究センターの鈴木潤教授との共同研究の成果となる。(情報提供:日本インタビュ新聞社・Media-IR 株式投資情報編集部)

最新のコメント

当社アプリをインストール
リスク開示書: 金融商品や仮想通貨の取引は投資金額を失う高いリスクがあります。仮想通貨の価格は非常にボラティリティーが高く、金融、規制、政治など、外的な要因に影響を受けることがあります。また信用取引はリスクが高いことを十分に理解してください。
金融商品または仮想通貨の取引をする前に、金融市場での取引に関わるリスクやコストについて十分に理解し、専門家の助言を求めたり、ご自身の投資目的や経験値、リスク選好等を注意深く検討することを推奨いたします。
Fusion Media によるこのウェブサイトのデータが、必ずしもリアルタイムおよび正確ではないということをご了承ください。またデータや価格が、必ずしも市場や取引所からではなく、マーケットメーカーにより提供されている場合があります。その為、価格は気配値であり、実際の市場価格とは異なる可能性があります。Fusion Media および当ウェブサイトへのデータの提供者は、当ウェブサイトに含まれる情報を利用したすべての損失に対して一切の責任を負わないものとします。
Fusion Media およびデータ提供者による事前の書面の許可なしに、当ウェブサイト上のデータを使用、保存、複製、表示、変更、送信、配信することを禁じます。すべての知的財産権は当ウェブサイト上のデータの提供者、または取引所が有します。
Fusion Media は当ウェブサイトに表示される広告により報酬を得ることがあります。
上記内容は英語版を翻訳したものであり、英語版と日本語版の間に不一致がある時は英語版が優先されます。
© 2007-2024 - Fusion Media Limited. 無断複写・転載を禁じます