智能数据整理_计算机电子_电子与半导体

smart data

基于语义和词汇对科学论文的内容进行评分，是否可以从科学出版物中提取文本实验数据?这是一个来自法国的团队希望在《国际智能信息与数据库系统杂志》上回答的问题。

蒙彼利埃大学的Martin Lentschat及其同事以及巴黎萨克莱大学的同事解释了他们的方法是如何使用科学出版物表示(SciPuRe)来描述基于科学文档片段的本体论、词汇和结构特征的提取数据。科学文献非常丰富，而且在很多方面专家都可以轻易获得。然而,大量的信息包含在这个巨大的空间只能开采,或收获,供那些专家,使用包含在荟萃分析或输入先进的决策支持工具,如果它是不知怎么处理,数据,信息和知识提取成一种可以使用可用的工具。

该团队指出，在生物医学研究领域，由于实验结果往往富含数据，因此人们一直在关注如何从已发表的文献中自动提取知识。但是，在其他领域，一直缺乏能够利用有用信息而不需要考虑到以前的知识和专门知识的工具。生物医学研究依赖于大数据，其他研究领域则需要智能数据。

大数据不需要评估，不需要基于内容和上下文的评分，它可以从出版物中提取出来并进行处理，因为在某种意义上，关于数据含义的先验知识是数据固有的。使用智能数据,另一方面,一方面需要评估它出版这样无关紧要的数据可以被丢弃,这项新的研究指出如何自动化这个过程允许工具用于处理大数据的相关生物医学研究与使用智能数据从其他数据密集型的研究领域。

该团队讨论的专家主题的成功表明，未来的研究可能会在其他研究领域开辟同样的方法，尽管这些领域是否同样成功还有待观察。

研究小组报告说:“我们对50篇食品包装领域的英语科学论文进行了实验。”“他们发现，文章片段是使用词汇分数过滤掉大多数数量实体误报的有效标准。”