- == 系统问题,暂停聊天功能。==
- 【征集】西西河的经济学,及清流措施,需要主动参与者,『稷下学宫』新认证方式,24年网站打算和努力目标
主题:【请教】如何改变PDF格式文件的大小 -- 宝贝小猪
小猪经常需要把更改通知之类的文件扫描成PDF文件,再用电邮发给工程公司,一个文件少说有几M大小,请问各位牛人,PDF格式的文件可以resize么?
多谢哈。
帮你踢一脚
如果你的纸面文件基本上是线图和文字,可不可以先产生某种向量(vector)格式,然后再存成PDF呢?
另外,还可以考虑用有损压缩格式,比如JPEG,代替PDF。
最好的办法当然是实现无纸化,直接从数据库里产生PDF文件。
果然不错,嘿嘿
只是小心,图片被压缩的狠了,字就看不清了
假如是text file, 可能只需要几十到几百K.
如果不行,扫成150-300 dpi 的黑白gif 文件也能省地方。要是有好的OCR软件,可以先转成文本文件再PDF.
1. 扫描或者扫描后期处理的时候注意输出分辨率,对于文字,一般150~200dpi看起来就很舒服了,100dpi也凑合。
2. 压缩色彩空间。如果文本只有黑白两色,存图片的时候就用256级灰度。这样在不压缩的文件里,每象素仅仅占用8个bit,否则的话如果用RGB模式存储就会是24bit或更多。
如果不需要看起来很舒服,还可以在photoshop里进一步压缩色彩空间,改成4bit/pixel,然后存成tiff。tiff要选择lzw压缩。
如果特吝啬,还可以试试2bit/pixel,这样出来的东西可以读,不过一般的来说会巨难看。
如果文本带有有限的几种彩色,那么扫描时还是扫3通道,但在扫描完成后,在photoshop里把模式从RGB改成indexed color,这样每个象素只占8bit,然后存成gif文件,这种格式是会自动进行lzw压缩的,对于文字为主的图片来说,文件应该会相当小。记住勾掉仿色,不然出来的东西到处是麻点。
3. 为了得到尽量小的文件,扫描参数要仔细调,扫完以后也要仔细调黑白点,使得背景是单一的纯色,而不要把纸的纹路什么的还留着。这样在压缩的时候不会为背景信息浪费空间。对于lzw压缩的tiff和gif格式,背景越干净,压缩效果越好,一张A4的纯文本,压出来只有几十K绝不稀奇。
4. 选择合适的图片压缩算法。在压缩扫描的文字图片的时候,一般来说用lzw算法的效率会比用jpeg好,除了lzw是无损压缩算法(因此线条周围不会像压缩过度的jpeg图片那样出现明显波纹)之外,jpeg面对大部分是均匀空白的文字图片的确也不如lzw压的小。当然前提是你背景处理的要得当,如果搞得背景全是纸的花纹,会严重影响lzw的压缩效率。
以上是扫描成图片时如何节省空间同时保证最高质量。
5. 除了在图片格式上做手脚,也可以试试acrobat的OCR功能,这样出来的pdf的文字部分是字符而不是图片。acrobat应该可以对英文文本OCR。不过我没有试过。
方法一:
单页pdf文件可以用photoshop打开,作为图片处理完分辨率,优化完色彩空间之后,再直接存储为pdf格式。
如果是多页的pdf文件,那稍微麻烦一点点:用acrobat打开,在acrobat(不是acrobat reader)里,它在save as部分允许你把pdf按页存成tiff格式。这样你得到了一大堆tiff文件,可以把它们放在一个文件夹里。
这种情况下估计没有人有那闲功夫一页一页的改,所以~
安装一个acdsee,然后用它的批量修改功能,把这些tiff格式的文件,resize,然后convert to... gif文件。然后再在acrobat(6.0以上版本)里选file - creat pdf from - multiple files,选择你做出来的gif文件,注意检查下页面的顺序,acrobat有时候会把最前一页放到最后,然后执行转换就行了。这样可以做出很美观而且紧凑的多页pdf文件。
方法二,利用acrobat和distiller进行down sampling。首先,在acrobat里把pdf存成ps文件。然后,在distiller里,选择转换的default settings为standard或者smallest file size(如果对方仅仅想在屏幕上看文件的话,如果想要质量更好些,可以选press quality),然后从file-open打开你刚刚存的ps文件,转换工作会自动开始,distiller会把文件按setting里的规格给你resize。这个方法应该是最简单的。
如果对一种presetting不满,还可以自己修改,在settings里找。
用OCR软件变成字符文件才是最经济的。
对于中文,用台湾产的尚书软件作,效果不错。
对于英文之类的拼音文字,可用的软件就很多了,大部分效果都很好。acrobat本身似乎也可以做OCR,不过我还没试验过。
http://www.pdfforlawyers.com/2004/04/ocr_tutorial_fo.html
另外,一定要输出到纸面上再扫描进电脑,应该是为了让当事人签名。
当然,最经济的是OCR配合某种向量格式,再转成PDF。
我不太明白的是,扫描仪出来的是点阵数据,为什么“宝贝小猪”的扫描仪会设置为直接生成PDF?PDF本质上是一种向量格式。
建议把您前后这几个贴的内容集中、整理一下,单开一个主题贴,这样可以让更多的人看到并受益。俺出国前好歹也算对平面设计和印刷方面略知一二(俺是公司里负责marketing communication),但好多东西当时根本闹不清,问做平面设计的或搞印刷的,他们也一概都稀里糊涂一知半解,直到看过您这一贴,才有豁然开朗的感觉。谢谢谢谢。