当前位置:首页 > 芯闻号 > 充电吧
[导读]电子书是校对者的噩梦,每当需要将PDF文件转化为epub格式时,那些原本完美显示的页面就会出现一系列令人困惑的排版和格式错误。对于出版商和内容供应商来说,在电子书如此畅销的今天,能够使PDF文件准确无误地转化为

电子书是校对者的噩梦,每当需要将PDF文件转化为epub格式时,那些原本完美显示的页面就会出现一系列令人困惑的排版和格式错误。对于出版商和内容供应商来说,在电子书如此畅销的今天,能够使PDF文件准确无误地转化为epub格式,从而存入电子书阅读器已经成为亟须关注、亟待解决的问题。

“有人认为转换PDF格式就像从word文档里复制文本一样简单:只需要选取那些已编好格式的文本并保存就能制作一本电子书。”印度金奈纽贞知识机构的首席执行官大卫·拉杰说。然而,遗憾的是,“PDF文件并不是按照单词、空格、段落和图像的逻辑流程来编写的,也就是说,没有内在信息可以显示PDF文本的结构与顺序。”

最严重且最常出现在电子书中的错误是单词间、标点符号丢失或多余的空格。因为PDF文件并没有把每一个单词视作被空格分开的独立单元,转换程序通常需要猜测空格从哪里产生。如果猜测错误,就会出现一个单词被分为两个部分或者两个单词连在一起的情况。

另一个问题存在于连字符中。只要转换软件需要判定连字符是非强制性的(在文本行末尾,由于该单词过长,输入连字符使页面保持整齐美观)或强制性的(比如像“e-books”这样必须使用连字符的单词),那么就可能出现判定错误的情况。

同样的问题还存在于判定文本格式上:粗体、斜体、下划线、下标、上标;字体的选择上:有衬线字体、无衬线字体、传统字体、现代字体等。在制作PDF文件中字间距、行间距的设置,反白字的使用都会影响转换结果的准确性。

如果作者没有使用统一编码标准的字符,那么这些特殊字符比如非拉丁语字母就成了转换软件面临的又一个困难。对于这些特殊符号而言,建立字符转换库是有用的,但是把所有可能出现的字符集结成库并不现实,所以大多数转换软件在遇到特殊字符时会以乱码的形式呈现。

此外PDF文件还不能识别多列文本。转换软件会读取整个页面而不是按顺序从上到下依次读取每一列的内容,因此,识别与分列就会导致不同的列线混乱,从而产生完全错误的显示。

与此相似的是,PDF文件没有强制性分隔段落的概念,这就增加了正文内容混乱或几个段落连在一起的可能性。另一种情况是,转换后段落中的每一行都成为独立的一段,或者是转换程序会将页面中的页眉、页脚作为正文中的内容进行转换。

转换程序最大的挑战在于如何破解表格、数学方程式以及图表。将这些元素识别为独立的单元并与正文分开成为许多转换软件不能完成的任务。

在纽贞知识机构,有一种使用自然语言处理和文本识别工具的程序,这种程序用来分析PDF文件文本结构,使用这种程序可以改正PDF文件转换为epub格式过程中通常出现的错误。如今这种产品已经出现——在纽约举办的2012TOC数字出版大会上,可以将PDF文件高质量转换为epub2或3的产品“丝绸”(意为像丝绸一样流畅光滑)闪亮登场。

据介绍,使用“丝绸”的转换规则系统可以得到高质量的结果,同时最大限度保持PDF文件原文的风貌。“丝绸”会运行拼写检查工具找出连在一起或被分解的单词,并使用内在连续性检查工具区分字符。不到一分钟的时间,“丝绸”就可以对一本标准的300页图书完成以上所有工作。接下来,“丝绸”会引导用户查看它标记的每一处可能出现的错误,并将原始的PDF文件与转化后的电子书进行并排式对比。拉杰同时补充说:“‘丝绸’直观的界面意味着用户不需要精通HTML编辑也可以熟练地控制与使用这些功能。脚本处理选项可以快速有效地将PDF文件中出现的自定义或其他复杂的变化转换为epub/HTML文件。”

目前,“丝绸”正在进行内部测试,拉杰证实这种软件运营服务模式很快会与广大客户见面。在更为复杂的PDF文件与电子书版面设计问世之前,我们无疑需要更先进的解决方法,将零错误的电子书和用户对电子书质量的高满意度作为奋斗目标,将驱使转换工具研发朝着更快、更可靠、更自动化的方向发展。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭