多模态科技文献挖掘
Multimodal Scientific Literature Mining
该研究致力于对科技文献中的表格数据进行分析挖掘,在解析、多模态理解、推理等一系列表格智能相关任务上开拓创新。
主要研究内容包括:
- 文档图像内容解析:针对科技文献中的文档图像,研究图像内容的解析方法,致力于精准提取图表、公式、符号等多种信息,为科技文献的结构化处理和内容分析奠定基础,从而实现对复杂文档的高效理解。
- 多模态科技文档元素理解:聚焦科技文档中表格(Tabular Data)等元素,开发多模态文档解析技术,探索如何从多维度理解这些关键元素的语义和关联。通过整合多模态信息,实现对科技文档内容的深入分析和高精度信息提取。
- 多模态科技文档大模型:构建能够处理多模态科技文档的大模型,通过融合图像、文本、结构信息,实现对复杂科技文档的深层次理解与推理。该模型具备跨模态协同分析能力,为科技文献中的知识发现和信息挖掘提供强大的技术支持。