49 123
发新话题
打印

资料整理流程、技术介绍(汇总中)

资料整理流程、技术介绍(汇总中)

本主题下的信息大多已经过时。
最新信息请关注中文马克思主义文库 http://www.marxists.org/chinese/
文库录入标准(征求意见稿) http://www.marxists.org/chinese/whoweare/st.htm


————————————————————————————————



资料的整理,大致分为录入、校对、翻译和收集修整(资料的搜寻、扫描、电子书制作等)几类。你可以在“待进行的工作”http://www.youth-sparks.com/bbs/ ... 1541&extra=page%3D1看到待进行的工作列表,如果有感兴趣的工作,即可在下面回帖把它接下来,并把你的联系方式用论坛短信发给异教徒或biaogang。录入、校对或翻译的文章可以发在这里的资料整理版或天益社区马克思主义研究版,每做完一个章节发一次。工作完成后请在“已完成的工作”http://www.youth-sparks.com/bbs/ ... 1542&extra=page%3D1回帖说明或联系异教徒和biaogang。接到的工作请尽量不要拖得太久,我们会不定期联系询问工作进度。有任何问题请发站内信或联系我们的邮箱ziliao1917@gmail.com


录入

即把实体书的资料录入成为电子稿。要录入哪些资料呢?除了待进行的工作列表,我们在资源搜集帖http://www.youth-sparks.com/bbs/ ... 1543&extra=page%3D1里讨论需要录入的资料,如果你能找到相应的实体书,就可以把它录入上网。如果你自己有其他有价值的资料,请先在帖中与大家讨论是否有录入上网的价值,再开始工作。同时不要忘记在“进行中的工作”http://www.youth-sparks.com/bbs/ ... 1538&extra=page%3D1回帖把你的工作加入到列表中。

录入的文档还要交给后面做成电子书,所以请在录入时用几段我们提供的代码标明原文中的粗体、引文、注释等。不但可以明确表示原文本,也方便了后面的工作。“校对”部分有一个录入和校对文稿的统一规范,照着此复制粘贴,查找替换即可。

一般录入完成后自己还要校对一遍,保证没有错别字。校对是个比较枯燥的过程,稍多一点耐心吧。当然也可以让别人来校对,我们可以协调。如果商定由别人来校对的话请把初稿交给异教徒或biaogang。


校对

校对分为校对PDF识别稿和手工录入稿。如果校对文本来自中马库,请联系丁一新索取文件;其他的文件异教徒或biaogang会发给你。

校对PDF的话,首先要把PDF上的文字识别出来。。。。。。


(谁写个OCR的介绍?)



识别后的文字有很多错别字和乱码,手工输入的也有一些,我们要校对的就是这些东西。除了改正这些错别字和乱码之外,还要遵守一些统一的规范。

录入、校对文稿统一规范

1、  注释的编号不要使用带圆圈的数字等特殊字符,这会给后面的发帖和电子书制作带来麻烦。请统一成带方括号的[1]这样的标号(括号和数字均为半角),并保持篇尾的注释标号在行首(不要空格)。

或者可以使用word提供的脚注(菜单栏里“插入->引用->脚注和尾注”),编号格式采用软件默认的“1,2,3,……”(这时就不用写方括号了,此种脚注后面制作电子书时可以转换出[ ])。


注释编号的格式不必同实体书里的保持一样,比如,原书中用*的个数来表示注释编号,录入、校对时就应该改为数字(用*表示的编号似乎转换不出方括号)。实体书里每页各自排序的注释编号,在电子文档中统一为按照本章从头到尾顺序的新编号。
有时书中除了每页的脚注(通常是原作者加的),在书后(或篇末)还附有尾注(通常是编者、译者加的)。这种尾注也要按上述脚注的方法处理。在使用word功能添加时,以“脚注”形式添加而不是“尾注”(因为尾注无法转换出方括号),并用罗马数字和阿拉伯数字区分两种注释的编号。

2、  如果文章的大段之间用多个空行空出,或以*号之类的特殊符号隔开,请一律改成以连续的三个*分割,即用“***”插在被分割的前后两个段落中。因为单纯的几个空行在后面可能会被合并掉。

3、  实体出版物中有些整段的引言采用了缩进排版或以楷体字表示。遇到这种情况,请在引言最前面加上<blockquote>,引言的最后面(如果引言有好几段,则在最后一段后面)加</blockquote>。

(由于<blockquote>、</blockquote>字数太多,也容易打错,可以用不易混淆的#、¥之类的特殊符号(如果它们在实体出版物中没有出现过)临时代替,最后批量替换成<blockquote>和</blockquote>。)

4、  实体出版物中加着重号的语句,在语句前添加<u>,语句后添加</u>。
5、  实体出版物中以粗体显示的语句,在语句前添加<b>,语句后添加</b>。
6、  实体出版物中的表格、图片、公式等,校对、录入时不必处理,只需在相应位置标记。比如表格处写上TB1、TB2……,图片处写上Image1、Image2……等,同时在另一份文档上记录每份校对文件的表格、公式,整理出图片,最后连同校对好的文稿一并交回。


7、  由于每本书的具体样式情况多种多样,如遇到未说明过的特殊样式,请与我们联系协商。
8、  请按进度把已完成的工作发在论坛上:这里的资料整理版或天益社区马克思主义研究版。原先添加的<b>、<u>这些网页代码,只要在word中批量替换成[ b ]、[ u ]这样的论坛代码(中间没有空格)就能保持格式直接发表了。全部校对完成后,将符合上述规范的校对稿发至ziliao1917@gmail.com或单独通知的电子书制作者的邮箱。



翻译

1、请注明原文的出处、网址、作者姓名和发表时间。
2、原文中的人名、地名、机构名等专有名词,已有明确的统一译法的一般按统一的译法译出;存在多种译法的、从前未被翻译过的或对现有译法有疑问的可以自己翻译,但一定要附出原文,或干脆不译直接保留原文。
3、如果是以某篇文章为基础,自己在翻译时加入了一些其它的资料,构成了一篇新的文章,同样需要说明主体文章的出处、网址、作者姓名和发表时间,并注明在此基础上编译。
4、论述性、编写性的文章,译者可以自行删剪一些觉得实在无聊的段落、句子;但如果是正式的文件、当事者的谈话、文章和报告,则不能随意删除,应严格按照原文翻译。


电子书制作

制作电子书分为chm格式的书和pdf格式的书,先说说chm格式的书。

chm格式就是windows的帮助文档格式,它是由html网页文件封装而成的。所以制作电子书在很大程度上说其实就是制作网页。不懂html代码?没有关系,有一系列软件可以帮你完成这个过程。我们推荐使用软景制造机、TextForever和UltraEdit32来制作电子书(都是免安装软件而且体积很小)。下载地址:
TextForever:http://www.comicer.com/stronghorse/software/index.htm#TextForever
UltraEdit32:http://www.crsky.com/soft/1469.html
软景制造机:http://pickup.mofile.com/6645509370792778
软景制造机是一种把txt文件转换成网页,并自动添加超链接和索引的软件,所以实际上我们只要排好txt记事本文件就可以了。TextForever可以对txt文件进行一些批量处理,如合并换行、添加代码等。大的txt文件用系统自带的记事本编辑反应会比较迟钝,你可以改用UltraEdit32来编辑,它还有其他一些省事的功能。这些软件基本都是傻瓜型的,详细使用方法见各自的帮助文件,下面介绍一下用这三种软件制作电子书的流程。

需要做成书的原始文稿可以是论坛网页上复制下来的文档或者打字、校对出的文档,把这些文档复制到一个txt文件上。如果校对、录入成的文档按照前面的建议用word的脚注功能添加了注释(就是双击正文中的注释标号可以到达相应的尾注),请按这样转换一下:先把文档复制到frontpage上,再复制到txt上。这样原文中的脚注就会自动变成带方括号的数字形式,方便后面超链接的添加。

有时全角的分隔号•粘贴到txt上会变成半角的(个别情况下单引号也会出现这个问题),造成txt不能兼容,保存后变成了问号?,这时只需用搜索替换功能把半角分隔号替换掉即可。

如果文档中含有大量的换行符,未到窗口右端就换了行,就用TextForever的“段落合并”功能把这些不完整的行合并起来(保持默认设置点合并就可以了),段首没有缩进的话就顺便勾选在段首加上2个中文或4个英文空格。有时大小标题之类的东西会被错误的合并到上一段中,篇尾的注释标号之前也会被添加空格(这会影响到后面的注释代码替换),所以合并后再检查一遍,保证篇尾的注释标号在行首,并用一种分隔标志把不同的篇章分开(整本书的话一章或一节分一篇,文集则是一篇文章分一篇,如果文章太长就按文中的小标题再分,但在后面整理目录时应表现出文章的完整性),比如3个或4个空行,稍后的软景制造机就是根据这种分隔标志来分割txt文件并输出成网页的。接下来新建一个文件夹,以书名命名,就可以用软景制造机输出网页了。


如果原书中有图片,请把它们统一放在新建的文件夹里,并在文本中相应的位置加上这样的字符:
{图片文件名}
这表示居中插入相应的图片,后面的软景制造机会把图片插进去。如果想让图片在一旁则在文件名后面加上(半角逗号),1(左绕排)或,2(右绕排)。文件名要包含扩展名,目前软景只支持.gif、.jpe、.jpeg、.jpg和.png几种扩展名。如果有其他格式的图片就用网页编辑软件或自己写代码添加(很简单,图片代码的话自己搜一下就有了)。插入的图片一定要和网页放在一起,到时候一同封装进chm,否则会无法显示。

软景制造机是把txt的文字放在统一的模板中来输出网页的。软件自带了十个不同的模板,也可以使用自己制作的模板。有时候整理出的网页需要上传到中文马克思主义文库的网上而不是封装成chm,这时就不适合用软景自带的模板或其他类似的模板了,因为这些模板中的Table形式会拖慢网页显示。这种公开发布的网页最好制作成一致的格式,请统一使用柴荣网友提供的模板:
newpage1.rar (1.34 KB)

其中的css文件是外联样式表(附有语句的注释),定义模版网页中具体的文本版式等。把它们一起放在软景的安装文件夹里,并在软景默认“标签模板”a href=""的后面加上 class=navig,如<a href="[INDEXPAGE]">目录页</a>修改成<a href="[INDEXPAGE]" class=navig>目录页</a>

如果最终成品是在本地机器上读取的chm,则不用顾及这些。但自制的模版最好保持简朴的风格。在软景中选择好模板和分篇方法(与你刚才的分割标志相一致,并确保只有需分割处才有这种标志),勾选html单行,如果txt文档的段间没有空行的话再勾选段间空行,以方便阅读。然后选取输出至刚才建立的目标文件夹,总标题定为书名,输出,就能看到初步的网页了。

文中有注释的话,还要添加正文和尾注之间的链接代码。这里用正则表达式批量替换这些代码。正则表达式的详细使用方法请参考这个帖http://www.youth-sparks.com/bbs/ ... 1484&extra=page%3D1 看起来很晕吗?没关系,我们已经写好了几个表达式,你拿去用就可以了。

打开TextForever,点选“正则表达式”选项卡,把下面的表达式添加进去:
([^\n])\[(\d{1,2})\]
它表示查找不在行首的带方括号的二位数字,即正文中的注释标号(应确保文中没有非标号的此种字符)。有时一篇文章中的注释条数会上3位数,把那个2改成3即可。在“替换为”栏中粘贴下列代码(以柴荣网友的模版为例):
$1<a class="notelink" name="$2" href="#f$2">[$2]</a>
其中class="notelink"与上面模版css文件中指定的文本样式相对应,如果你没有选用那个模版可以把它删去,也可以把它定义成其他的文本样式。再添加第二个:
^\[(\d{1,2})\]
这表示查找在行首的注释标号,即篇尾的注释(最好先查看一下输出网页的代码,看看篇尾的注释标号[1]、[2]、[3]等是否均在行首),替换为:
<br><a name="f$1" href="#$1">[$1]</a>
要按上面的顺序添加(否则就要改写正则表达式)。选取网页所在的文件夹,文件类型选为*.htm;*.html;*.shtml,查找、替换,即完成了正文注释代码的添加。


个别的文档,注释是用罗马数字或汉字写的,这时只要把两个表达式改成这样即可:
([^\n])\[(\D{1,3})\]
^\[(\D{1,3})\]
3是针对汉字的,如果是罗马数字则应改为7(或8?)

最后,调整一下各网页的版式,如大小标题,图片等,特别是目录文件,要根据具体的书来调整。比如按上面的模版制作出的目录页,顶部和底部的蓝色背景条上只有两个||,不太美观,如果要上传至中马库使用就应在此处加上中马库首页和此书著作目录页的链接。再检查一下有没有死链、无效的注释链接、错误的替换等(一定要做这一步),网页就完成了。

如果你有别的更好的方法制作网页,当然也很好,但应保证阅读的舒适(字体,前、背景色等)。这里要提醒的是,不要用word生成网页,也不要用word编辑网页文件或把word中的文字直接粘贴到htm中。因为这样做会生成大量的垃圾代码。现在的网页编辑软件都有图形化按钮的调整页面版式的功能,简单易懂,所以就不要用word排好版再转换成网页了。另外,网页的文件名请不要用汉字,否则在非中文系统下会显示乱码。上传给中马库的网页则需要遵守中马库统一的命名规则:作者英文名-写作年代book网页序号。如:marx-1848book01.htm,目录页则是marx-1848bookindex.htm。可在软景的“输出文件前缀”和索引文件名中进行相应设置,同时设“计数位数”为2。

如果你是制作用于网站发布的网页,那么到这一步就完成了,打包发给相应的负责者(通常是丁一新或异教徒、biaogang)。其他的人则要接着完成最后一步:压成chm书。制作chm的软件有很多,我们推荐使用FAR软件,并以此为例简单介绍一下制作过程(详细方法见其帮助文件或这个帖http://www.youth-sparks.com/bbs/ ... =458&extra=page%3D1)。
FAR汉化版下载地址:http://download.pchome.net/development/helpbuilder/19843.html

网上有的FAR或其他制作软件的安装文件没有包含搜索功能:打开该软件的安装文件夹,找找有没有itcc.dll这个文件。如果没有,那就是不能搜索了。你需要下载一个itcc.dll。在网上搜或到这里http://www.youth-sparks.com/bbs/ ... 1101&extra=page%3D1 的4楼下载它,把它放在安装文件夹里,然后到你的系统盘的WINDOWS\system32目录下找到regsvr32.exe,复制到安装文件夹,把itcc.dll拖到此文件上注册一下。这样制作出的chm就有完整的搜索、书签等功能了。不过带搜索功能的chm体积会大一些,而且编译起来比较慢。所以对于一些大文件,比如总体积有好几M的书,如果你对自己的机器没有信心那么还是省了这项功能吧,或干脆把它打成压缩包。

现在可以开始制作了。双击运行软件,如果有提示说是未注册版,直接关闭提示框即可(不要点下面的按钮)。

点击“添加网页”,找到刚才输出网页的文件夹,添加所有文件,然后在文件列表中移除不相关的txt等文件,只留下html、css和图片等。


再点击“保存列表”,将列表保存至刚才的文件夹,在左下方的“帮助创作”栏中点击“帮助特快”,设置刚才生成的目录页为首页,书名为标题,创建帮助(是否用FAR的文件列表创建选“是”)。


这时你就可以在输出文件夹下看到初步的电子书了,它还需要一些调整才能完善。文件生成以后不要关闭刚才的窗口,点击高级编辑—〉转到高级方案编辑器。

在“方案设置”中把语言设为简体中文,在“窗口类型”中可以设定窗口大小,在“三用面板”中可以设置导航栏(左侧)和工具栏(上部)的显示方式。由于软景输出的网页已经自带了链接和目录页,所以可以勾选导航栏初始时关闭,我们还要用到导航栏和工具栏的搜索等功能,所以一定要让它们显示出来。在“工具栏”中可以设置工具栏上显示的按钮,我通常勾选“展开/紧缩导航面板、前进、后退、主页、打印、选项”这几项。最后,点击目录向导,编辑目录文件。

目录文件就是显示于左侧导航栏中的目录。目录条目默认的是网页标题,你可以更改目录的标题和链接对象,也可以对目录条目进行添加、删除、排序和父子项的操作。每条目录前有一个小图标,也可以更改,还可以在“属性”中更改目录风格等。高级方案编辑完成后点击保存,回到上一个窗口再保存,点击窗口上方那个漏斗形的按钮编译,就大功告成了。

把做好的书移出原文件夹,检查一下有没有死链。如果对一些设置仍不满意,则回到FAR的主窗口,点击“HH方案编辑器”,在刚才的输出文件夹中找到HHP文件进行编辑,就可以修改以前的高级设置。如果修改了原文件的网页,那么打开HHP文件点“重新加载方案”,再编译一次即可更改chm中的相应网页。万一不幸丢失了HHP文件或想编辑别人制作的chm,还可以用chm反编译软件(这个就自己搜吧,有很多种)把已封装的网页释放出来,编辑后重新制成新的chm文件。

最后要提醒一点,网页中的超链接要用相对链接(把所有文件放在同一文件夹中直接写文件名)而不是绝对链接(详细的路径,如C:\ Documents and Settings\ebooks\001.htm),否则在别人的电脑里或原文件被移动时就会造成死链。这里要注意的是FAR目录文件编辑中的“预览”功能是不分什么相对链接绝对链接的,所以检查死链一定要在chm生成后,并最好把它移出原文件夹来检查。

做好的书,请把它上传到网络硬盘上。最简单的可以注册新浪的爱问http://iask.com/,这里http://www.youth-sparks.com/bbs/ ... 1431&extra=page%3D1提供了很多网盘可供选择,最好选取支持外部链接、长期保存文件且不需要提取码的(稍后我们会推荐几个),并把下载地址发到资料下载帖http://www.youth-sparks.com/bbs/ ... =658&extra=page%3D1。还有不要忘记到“已完成的工作”http://www.youth-sparks.com/bbs/ ... 1542&extra=page%3D1报告工作的完成。


PDF的制作,和扫描合在一起吧。(biaogang)



-----------------------------------------------
其他注意事项和技巧:
1.如果想自己制作电子书的网页,建议去学习XHTML,按标准形式书写网页代码。
2.自己制作网页时不要忘记书写语言代码页声明,说明网页按哪一种编码显示(简体中文通常是gbk或gb2312)。否则不同语言操作系统的浏览器显示会出现乱码。在制作多语言文档时,尽量使用Editplus之类能够自己选择保存文件的代码的html编辑器(通常中文编码也可以显示多种语言的字母),如果不知道该用什么编码,就保存为unicode或utf-8。

[ 本帖最后由 biaogang 于 2009-9-26 09:05 编辑 ]

TOP

注释的标号不要使用带圆圈的数字等特殊字符,这会给后面的发帖和电子书制作带来麻烦。请统一成带方括号的[1]这样的标号,并保持篇尾的注释标号在行首(不要空格)。遇到整段的引文请把它与正文区别开来,用较小的字号表示。遇到表格请务必排整齐。如果文章的大段之间用多个空行空出,请加上特殊标记,如***等。因为单纯的几个空行在后面可能会被合并掉。
-------------------------
请统一成带方括号的[1]这样的标号——这个或是通过手工敲进去。或是通过word的脚注功能,最后把word整篇文档复制到frontpage,一般而言,默认格式的脚注序号会自动变成[1]的格式。

遇到整段的引文请把它与正文区别开来,用较小的字号表示。——我不明白较小的字号区别有什么意义。如果是本人直接制作html文档,那自然没问题。如果他在word上较小字体,有意义吗?除非直接复制word文档到frontpage能保持这个格式。


强烈建议主持者学习一下XML和XHTML。校对、排版工作以XML为标准进行,会大大提高效率以及维护、修改起来相当方便。

TOP

我觉得主持者还应该写一个工作流程。

怎么分工、汇总、进度报告、每个步骤做哪些活等等……。

TOP

关于录入:

完成后要做成网页或直接交给别人做电子书的文件,则加上html代码:
<b>黑体文字</b>  <u>下划线文字</u>  
————————
这个要求我觉得太麻烦了。


注释的标号不要使用带圆圈的数字等特殊字符,这会给后面的发帖和电子书制作带来麻烦。
——————————
我的注释都是[1]这样的,但是我在录入时也用了○、★、□、①、é、è这些特殊字符,这有影响吗?

关于翻译:
http://www.youth-sparks.com/bbs/ ... &extra=page%3D1

建议写一个简单的指导意见添加进“汇总”中。
〓〓在夜里潜行〓〓探索真相、真知、真理的解放道路〓〓

TOP

引用:
原帖由 柴荣 于 2007-12-29 09:08 发表
注释的标号不要使用带圆圈的数字等特殊字符,这会给后面的发帖和电子书制作带来麻烦。请统一成带方括号的[1]这样的标号,并保持篇尾的注释标号在行首(不要空格)。遇到整段的引文请把它与正文区别开来,用较小的字号 ...
建议大段的引文用斜体字标记:

[ i ] [ / i ]
〓〓在夜里潜行〓〓探索真相、真知、真理的解放道路〓〓

TOP

引用:
异教徒:网上的大多数FAR或其他制作软件的安装文件没有包含搜索功能:打开该软件的安装文件夹,找找有没有itcc.dll这个文件。如果没有,那就是不能搜索了。你需要下载一个itcc.dll。
这段不对。例如 PowerCHM 就没有itcc.dll,但是Search/Advanced Search ,Bookmark功能都有。

脚注要注意到底是半角的 [ ] 123 还是全角的[]123。脚注(包括编号)是半角还是全角,正文中的数字是半角还是全角,最好统一。
引用:
黔进派:完成后要做成网页或直接交给别人做电子书的文件,则加上html代码:
<b>黑体文字</b>  <u>下划线文字</u>  
————————
这个要求我觉得太麻烦了。
这道工序最终还是要人来做。到底是打字的人做or校对的人做or制作html,chm的人做,现在没统一要求。
引用:
柴荣:我觉得主持者还应该写一个工作流程。
怎么分工、汇总、进度报告、每个步骤做哪些活等等……。
如何分工汇总,目前好像没有一个统一的方法吧。每本书不同,有的需要多人校译,有的一个人打字做chm完事。不妨看看大家的意见。

进度报告一定要有。材料到手后做个计划,与“某人开始校对某书”这种消息一并帖出来,然后每周或每个月报告一下(若论坛空间大,可以专门分出一个版面做通报,对于每本书都开个主帖,然后参与者不断跟帖通报。对材料的讨论和张贴宜另开版面进行)。

具体的技术问题,我觉得主持人只须把教程和规范给出,具体选择怎么办由个人定。技术问题毕竟很难由他人代劳,要靠个人学。

关于文本文档与网页的标准化,我认为古登堡计划(The Project Gutenberg)做得不错。古登堡计划,主页 gutenberg.org 好像很难登录,可以登录 http://promo.net/pg/ ,以及图书搜索下载页面 http://digital.library.upenn.edu/books/search.html

这是古登堡计划中的左拉《劳动》一书(网页格式): http://wwwlogon.googlepages.com/17517-h.htm (建议保存到本地再浏览)。
该书所使用的xml css 标记如下:

    <style type="text/css">
/*<![CDATA[  XML blockout */
<!--
    p {  margin-top: .75em;
         text-align: justify;
         margin-bottom: .75em;
         text-indent: 2%
             }
    p.noindent {text-indent: 0%;}
    h1,h2,h3 {
         text-align: center; /* all headings centered */
         clear: both;
         }
    hr { width: 33%;
         margin-top: 2em;
         margin-bottom: 2em;
         margin-left: auto;
         margin-right: auto;
         clear: both;
       }
    sup {font-size: 70%;}
    table {margin-left: auto; margin-right: auto;}
    body{margin-left: 10%;
         margin-right: 10%;
        }
    a:link {color: blue; text-decoration: none; }
      link {color: blue; text-decoration: none; }
      a:visited {color: blue; text-decoration: none; }
      a:hover {color: red }
    // -->
    /* XML end  ]]>*/
    </style>

TOP

脚注要注意到底是半角的 [ ] 123 还是全角的[]123。脚注(包括编号)是半角还是全角,正文中的数字是半角还是全角,最好统一。
----------------------
如果脚注不加上链接,那么根本无所谓什么格式,而且也没必要在wrod里编辑。如果加链接的话,据我的经验,利用word的脚注功能似乎比较方便。往frontpage复制时,自动生成[1]……格式的编号。

手工写编号的话,因为一般都是整章一个html,实体书的脚注编号会被打乱,容易出错。


这道工序最终还是要人来做。到底是打字的人做or校对的人做or制作html,chm的人做,现在没统一要求。
--------------
最省事的方案就是由第一遍校对者顺手加上。这样制作html的人就不必对照实体书再看一遍哪里需要加上,第二编校对的人可以检查代码是否有问题。这个要求不能含糊,否则就体现不出协作劳动的效率。


如何分工汇总,目前好像没有一个统一的方法吧。每本书不同,有的需要多人校译,有的一个人打字做chm完事。不妨看看大家的意见。
具体的技术问题,我觉得主持人只须把教程和规范给出,具体选择怎么办由个人定。技术问题毕竟很难由他人代劳,要靠个人学。

--------------
正是因为每本书具体情况都不同,所以主持者的作用特别重要。主持者的作用就是掌握这个劳动过程的整体概念。主持者必需心里有数:每个人领了什么任务,这项任务在后面发挥什么作用。如果协作衔接不好的话,最后结果就是乱七八糟。所以决不能“具体选择怎么办由个人定”。技术标准可以讨论怎么搞比较好,但是实际施行的时候必需有个唯一标准,决不能我想怎么定就怎么定。


引言的格式问题。我反对用斜体。实体出版物里也没见过用斜体的。除非短的语句,否则斜体纯粹视力杀手。

[ 本帖最后由 柴荣 于 2007-12-29 23:12 编辑 ]

TOP

打字和校对的规范好像差不多,待会合并在一起得了

把word复制到forntpage?那样会带过去垃圾代码吧?

我不明白较小的字号区别有什么意义。如果是本人直接制作html文档,那自然没问题。如果他在word上较小字体,有意义吗?除非直接复制word文档到frontpage能保持这个格式。
--------------------------------
汗,我把你说的缩排理解成缩小字体了。缩排的话,添加什么代码?

流程我已经和技术写在一起了。进度报告的话,我觉得他们隔段时间把校对好的文帖上论坛就可以算进度报告了,还有可以用邮件询问。

统一注释标号是为了方便后面的代码替换。别的特殊符号一般没什么问题,除了有的在txt上不兼容。斜体字还是不要了,很费眼睛。

这段不对。例如 PowerCHM 就没有itcc.dll,但是Search/Advanced Search ,Bookmark功能都有。脚注要注意到底是半角的 [ ] 123 还是全角的[]123。脚注(包括编号)是半角还是全角,正文中的数字是半角还是全角,最好统一。
-----------------------------------------------
已改。注释标号不论数字或中括号都是半角,其他的无所谓吧。

TOP

引用:
如何分工汇总,目前好像没有一个统一的方法吧。每本书不同,有的需要多人校译,有的一个人打字做chm完事。不妨看看大家的意见。
具体的技术问题,我觉得主持人只须把教程和规范给出,具体选择怎么办由个人定。技术问题毕竟很难由他人代劳,要靠个人学。

--------------
正是因为每本书具体情况都不同,所以主持者的作用特别重要。主持者的作用就是掌握这个劳动过程的整体概念。主持者必需心里有数:每个人领了什么任务,这项任务在后面发挥什么作用。如果协作衔接不好的话,最后结果就是乱七八糟。所以决不能“具体选择怎么办由个人定”。技术标准可以讨论怎么搞比较好,但是实际施行的时候必需有个唯一标准,决不能我想怎么定就怎么定。
我是指技术标准的实现过程,可以由个人决定。比如一个人用word顺手,另一个人用frontpage。但是要求结果一样。
协作、衔接、分工的问题你说得很对。应该高度重视。

斜体不如楷体或仿宋。
引用:
异教徒:别的特殊符号一般没什么问题,除了有的在txt上不兼容。
那是因为windows自带的记事本。用EditPlus可以选择使用某编码载入。UltraEdit我没用过,应该也可以的。据说ultraedit很强大,可以直接写二进制exe!

TOP

补充

为防止<pre></pre>标签中的行超出页面宽度,可添加如下css代码。

pre { width:600px;
white-space: pre-wrap;/* css-3 */
white-space: -moz-pre-wrap; /* Mozilla, since 1999 */
white-space: -pre-wrap; /* Opera 4-6 */
white-space: -o-pre-wrap; /* Opera 7 */
word-wrap: break-word; /* Internet Explorer 5.5+ */ }

TOP

我机器里没装word,直接打开发来的doc文档校对,改正一些东西再存盘的时候会提示说,这个文档将改成RTF格式,那么改成RTF格式要紧吗?
性感的叛国青年

TOP

<pre>和<blockquote>具体有什么作用?
XML和古登堡那个代码熟悉中。

还有,谁写一个ocr的技巧吧

TOP

OCR有技巧么?疑惑中……

嗯,OCR就是自动化,自动化就是用技术打破技巧!hoho :-)

今天试了试制作djvu,结果很振奋:对于黑白tiff格式图片转换出的djvu,比pdf小50%!我使用的软件是 Lizardtech Document Express Editor 6.01 Build1259 ,电驴上下载的,有注册码。而且这款软件用着比 Adobe Acrobat 舒服多了,更人性化。53MB,英文版。

TOP

<blockquote>是把段落整体缩进排版的意思。看看网页的显示效果就知道了。


把word复制到forntpage?那样会带过去垃圾代码吧?
===============
把word复制到forntpage,复制这一步我只是为了得到[1]格式的脚注序号,然后还要从forntpage复制到txt文件中去。

word里的脚注直接往txt复制,会丢失的。为什么要绕这个弯?因为不这么绕,我就得自己在正文里写个[1],然后在尾注里写个[1](如果这么做,我直接就在txt上编辑文档了。这样手工写编号的话,因为一般都是整章一个html,实体书的脚注编号会被打乱,容易出错,所以我利用word的自动脚注功能),也许还有其他方便的方法,欢迎提供。


我是指技术标准的实现过程,可以由个人决定。比如一个人用word顺手,另一个人用frontpage。但是要求结果一样。
-------------------
其实我最喜欢的就是每个人提供一份标准的xml编码的数据文档。当然,要求每个人学xml有点困难。不过其实他们只需在特殊的格式地方知道加怎么代码就可以了(这个只要几分钟就能学会)。不管他们怎么实现这一点。主持人可以利用正则表达式替换功能把剩余的xml代码加进去。

TOP

另外,送回的校对文档不要利用论坛来发帖这种形式。应该以压缩包邮件附件的形式。

TOP

发论坛的意思是公开发布一下,同时可以检查进度。符合规范的压缩包单独发给做书者。

ocr没技巧就简单介绍一下,再推荐几个软件。

合并在一起了。还有什么问题?

[ 本帖最后由 异教徒 于 2008-1-2 03:15 编辑 ]

TOP

报告一件事



我在上网时浏览俄文站,有时出现网页空白,应对办法是点击“查看”的“编码”中的“西里尔文”一栏,网页随即出现正常页面。这是个老办法。但目前发现当我这样做时,某ID按照这里介绍的“标准流程”新作的几本CHM中文书立即出现乱码,而且我并未同时阅读它们。而其余CHM书、包括同制作者过去做的诗歌书等等,均无类似反应。

只要在“编码”一栏再点“中文简体”,打开书,乱码已消失。恢复正常文字。

就是这样。检验几次,都如此。估计是制作方法有问题,流程似有漏洞

TOP

估计他的网页里没写编码设置。

应该在开头写上
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />见本网页源代码第5行)
或者
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">也行。

加上这个说明后,浏览器就可以按照“gbk”或者“gb2312”指示显示编码。如果没加这个说明,则按照浏览器默认的编码显示。中文操作系统里默认的都是中文编码,所以一般显露不出来这个问题。看俄文的时候(估计那个俄文网页也没写编码设置,这都是不规范的编写网页),你得手工选择“西里尔文”编码的设置。再看那批中文时,也按“西里尔文”编码显示了,所以是乱码。

如果自己制作网页,建议花上一些时间,网上找本书(一搜一堆)看看制作的规范标准。

我更建议大家开始学习XHTML规范。

[ 本帖最后由 柴荣 于 2008-1-2 08:51 编辑 ]

TOP

回楼上

那是因为制作者没有在CHM书的HTML页面代码<head></head>区里加入语言代码页声明:
<meta http-equiv="Content-Type" content="text/html; charset=GBK">
这是指以GBK编码解读网页(本论坛的网页就是这个格式)。

类似地,当网页不是GBK编码时,制作者应把GBK替换为相应的编码例如 GB2312BIG5(台湾繁体)、ISO-8859-1(西欧)、ISO-8859-5(西里尔文)等等。

值得注意的是:一,很多文字都不止有一种编码。二,GBK(中文)编码中也有俄法德希腊等文字ôä&AElig;ξЯØ。


制作者请注意:

α)在制作多语言文档时,尽量使用Editplus之类能够自己选择保存文件的代码的html编辑器。

β)如果不知道编码的代号是什么,可以在Firefox浏览器的“字符编码”一栏中查看。或者在Editplus的“另存为”——“编码”下拉菜单里看(找不到时注意旁边的省略号按钮)。

γ)如果制作时对于一个网页不知道该用什么编码,就保存为unicode或utf-8。

把不同语言的网页“另存为”各种编码,再用浏览器打开看看是什么效果。多试几次就能懂了。

TOP

晕……手比我快!



看上帖,法文里的这个字母 &AElig; 在GBK编码中显示不出来,靠!

[ 本帖最后由 biaogang 于 2008-1-3 13:48 编辑 ]

TOP

 49 123
发新话题