网站首页
医师
药师
护士
卫生资格
高级职称
住院医师
畜牧兽医
医学考研
医学论文
医学会议
考试宝典
网校
论坛
招聘
最新更新
网站地图
中医理论中医临床诊治中医药术语标准中国方剂数据库中医疾病数据库OCT说明书不良反应中草药图谱药物数据药学下载
您现在的位置: 医学全在线 > 中医理论 > 民间中医 > 正文:大家好,怎么把PDF格式 的文件转换成TXT文件
    

中医学子:大家好,怎么把PDF格式 的文件转换成TXT文件

大家好,怎么把PDF格式 的文件转换成TXT文件,想把中医书籍转成TXT格式的,可以在手机里看,那样文件可以变小,主要是书的内容,PDF格式的文件的书皮,那些彩色图案可以不要,主要是文字,大家说说,大家是怎么做的,用什么软件,什么方式,
-----------第一种方法:用SnagIt工具进行文字提取。

首先使用SnagIt的文字捕捉功能将文字提取出来。SnagIt当前版本为7.02,大小为8903KB,下载地址可以在http://www。skycn。com/soft/2290.html 找到,汉化补丁可以在http://www。skycn。com/soft/2291.html 找到。启动SnagIt,选择菜单“输入/区域”,选择菜单“工具/文字捕获”,然后我们打开要捕捉的文件窗口,按下捕捉快捷键,选定捕捉区域即可捕捉到文字。

接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或段落错乱等现象,而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取后文章的编排。

用WPSOffice2003打开提取文章;然后选择“工具”菜单下的“文字”/“段落重排”,这时你会看到提取文章重新进行排版;接下来选择“工具”菜单下的“文字”/“删除段首空格”命令,使得文章的每段参差不齐的行首空格被删除;再选择“工具”菜单下的“文字”/“增加段首空格”,文章变为正常的书写格式;提取文章一般都留有空段,为删除这些空段,继续选择“工具”菜单下的“文字”/“删除空段”命令,这时文章完全变为我们所要的形式;用你熟悉的界面任意编辑文章吧。

第二种方法:用屏幕截图然后让OCR软件识别。

打开带有文字的图片或电子书籍,翻到你希望提取的页面,点击键盘上的打印屏幕键(PrintScreen)进行屏幕捕获;打开Windows自带的画图工具,将刚才捕获的屏幕截图,粘贴进去,保存为一个.bmp文件;接着打开刚才保存的文件,在编辑器中进行修正,根据你所要提取的文字进行裁剪,尽量去除不要的部分;最后启动OCR软件,在OCR中打开刚才保存的修改文件,进行文字识别,然后可随心所欲进行编辑。
-----------实在不行,有专门的将pdf的文件转成word的软件,再贴到txt里去吧
-----------这个问题分2种情况:
1、如果pdf文件里面的内容是图像,比如扫描书形成的pdf文档,那就只能用OCR软件去识别,效果不会太好。

2、如果是文字的,那从网上下载个pdf 转txt格式的软件转就可以了。
怎么看是那种格式的,通常扫描出来的文字边缘比较毛糙。
-----------就是那种扫描书形式的PDF文件,难以处理,怎么做啊,我找了半天,很厂时间了,都没有找到,请大家说说,详细点,尤其是1、如果pdf文件里面的内容是图像,比如扫描书形成的pdf文档,那就只能用OCR软件去识别,效果不会太好。,,,,这个方法说点详细点,谢谢大家
-----------[介绍使用Microsoft Office 2003识别超星格式(其它图像格式电子文档相同)一法:使用超星自带的文字识别模块识别的乱码很多,本文使用Microsoft Office 2003识别,效果不错。具体说明如下:Microsoft Office 2003安装后生成一个名为Microsoft Office Document Image Writer的打印机,将超星文件打印到此打印机中会生成一个文件,可以用Microsoft Office Document Imaging直接打开,然后点工具→使用OCR识别文本→“页面范围”选所有页面,即开始识别,识别完毕后点工具→将文本发送到Word,一切OK,还能保持文档格式,不用删多余的换行符了。]
...
  • 上一篇文章:
  • 下一篇文章:
  • 医学全在线 版权所有© CopyRight 2006-2046, MED126.COM, All Rights Reserved
    皖ICP备06007007号
    百度大联盟认证绿色会员可信网站 中网验证