发新话题
打印

来讨论,采用哪种结构化文本。

来讨论,采用哪种结构化文本。

既然决定采用结构化文本,因为这个项目很多,所以必须选择一个。


我投票reStructuredText项目。

TOP

我投XML和TeX。有些心虚,因为都还不会

TOP

大哥,那俩个也太难学了吧。咱们不是专业搞排版的。

reStructuredText这种轻量级的标记语言足够用了,而且可以转换成tex和xml。

现在正在看TXT2TAGS,这个似乎也不错。

TOP

TeX可以使用各种模板,所以 似乎 不算很难。我假期学一学,搞个样品体验一下

TOP

tex的标记多不多?

轻量标记语言的好处就是很快就能学会,而且基本不影响文档的可读性。比如docbook的源文件基本就没法看了,<>太多,干扰很大。

TOP

等我挨个看一遍再发言

TOP

我发现得写个说明,为啥用纯文本,而不用该死的word。

这不是几个人的小事,必须把观念转变过来。

一动笔,就发现解释啥叫纯文本就困难重重。纯文本是不是二进制文件?

[ 本帖最后由 柴荣 于 2008-7-7 22:07 编辑 ]

TOP

tex

弄了个极低劣的样品……压缩包里有tex源码,以及用 CTeX 的 PDFLaTeX 功能转换出来的 pdf 文件。全是默认设置,pdf字体内嵌。

http://ishare.iask.sina.com.cn/cgi-bin/fileid.cgi?fileid=4166055

————————————————
学会的几个重要特性:

1.脚注极其方便。把脚注内容放在 \footnote{} 的大括号里,然后把\footnote{} 放在需要注释的地方就可以了。软件在把TEX编译成PDF时会自动给脚注编号并把脚注内容放置到每页脚处。

2.如果要另起一行,必须用两个回车符。一个回车符等于空格。

3.根据 \chapter{} \section{} 生成章节编号、页眉、目录。用 \paragraph{} 划分段落,默认有段间距。

尚未学会交叉引用和PDF标签的制作方法。

惊奇地发现从PDF复制文字到文本文件会出现乱码!换个阅读器再试试

[ 本帖最后由 biaogang 于 2008-7-9 22:56 编辑 ]

TOP

可能是要用dvipdfmx 做出来的文档才有复制和搜索文字的功能。

Tex的文件可以生成html网页的,楼上试过效果如何没有?有没有分页输出并自带上下页链接的功能?

[ 本帖最后由 柴荣 于 2008-7-9 23:32 编辑 ]

TOP

pdf文件体积太大。11页竟然有970KB,不知道啥原因。

TOP

TeX生成HTML,还没试验成功……

我目前认为XML应当摆在比TeX远为优先的地位,理由如下: 1.TeX最常用的输出结果是PDF,是个二进制文件,不易编辑,而且PDF本身太复杂,变化多端; 2.TeX对于多语言、unicode的支持比较难掌握,不像纯文本的XML很简单就能搞定; 3. 国内出版界最常用的是方正系统,用TeX优势也不大。

TOP

其实这些结构化的东西,互相转换起来都很方便,就是一个软件支持(处理多字节的中文也是个大问题)还有冗余代码(要转换一般都会有冗余代码,不像手写的干净)。

xml的话,如果只着眼于网页发布,xhtml也就够用了。但是考虑到多种格式发布的话,docbook是首选。出版实体书,方正啥格式?

不过docbook体积(指复杂度)太大,没有reStructuredText轻巧。reStructuredText文件可以转换为docbook,但是reStructuredText官方还没有发布转换程序。

我本来以为轻巧的reStructuredText语法是人人都可以简单学会的,但是我没料到,习惯的强大力量。一句“我笨”,让人无语。

[ 本帖最后由 柴荣 于 2008-7-13 17:23 编辑 ]

TOP

订阅rrs的好处就是得到消息早http://diary.my1989.org/node/232

战争研究论坛
http://www.warstudy.com/about.xml#a3

OCR扫描,制作文档资料,有8年历史了,经验应该很丰富,值得参考学习。01年开始使用xml技术。不过他们自己写的样式表只能在ie下阅读载入。ff分析XSLT 样式表失败。

一个例子

大棋局
http://warstudy.com/theory/modern/grand_chessboard/index.xml


技术经验谈:

http://bbs.warstudy.com/bbs/dvbbs/list.asp?boardid=2

制作xml经验谈
http://bbs.warstudy.com/bbs/dvbbs/dispbbs.asp?boardID=2&ID=46

[ 本帖最后由 柴荣 于 2008-7-15 22:14 编辑 ]

TOP

战争研究论坛 直接用XML作网页来显示。这样合适否?

TOP

无所谓。只要把XSLT写得兼容一点,都能正常显示。

xhtml,本质上也是一种xml文件。

docbook其实,我觉得也没必要搞那么复杂去采纳那个标准。简单几个标记就够用了。

TOP

最近有了点大概想法。

最终产品,xml格式,样式表选择xsl。

xml的DTD,可以自己做,反正用不了几个。

但是直接编写xml格式的文档不太现实,也容易出错,所以可以写一个轻量级的结构化文本,然后再用程序批量转换成xml。

可以选择reStructuredText的一个子集【里面的结构标记太多,用不了那么多】,也可以自己仿照造一个。因为reStructuredText对中文支持还有点复杂,比如加重标记必须前后有个空格,这对西文正好,但不符合中文,虽然也不是没解决办法。

程序需要改一改。我想出了一个大概轮廓,vim的脚本。

总结起来,就是最开始校对、抄写人员只需要写成如下格式(举个例子,没最后定下来):

【】里面是注释
============================

世界政治局势与第四国际的任务——第四国际第十二次世界大会决议
+++++++++++++++++++++++++++++++++++++++++++++++
【+++表示这是一级题目】

[编者按:第四国际第十二次世界大会
在1985年1月间召开。
参加会议者有200
人左右,包括来自五大洲的50个国

家支部的正式代表,和同情组织的代表、
观察员及特邀人士。


大会在讨论后通过了五个决议,它们是:
《世界政治局势与第四国际的任务》、
《波兰的革命与反革命》、《中美洲革命》、
《无产阶级专政和社会主义民主》、
《建立第四国际的现阶段》。]


【段与段之间用空行分割。一个段落可以是一行,也可以是互相之间没有空行的连续几行。上面两个段落都是后一种情况。这种适合从ocr扫描出来的文本。】

(一) 总的世界局势
^^^^^^^^^^^^^
【^^表示二级题目】

(1) 最近15年间,国际资本主义的*结构性危机*,和世界工人阶级的领导层危机,都已加深。

【**之间的文本表示加粗】

现阶段的资本主义危机是资本主义历史上最严重的危机[1],其特征表现在以下各因素的结合上面:

----------------------
[1] 我是脚注
----------------------
【上面三行表示注释】

===============================

很简单吧?还有一个表格和图片的表示。也不是很复杂。但是对复杂的数学公式基本不支持,好在我们很少需要写数学公式。

我的设想是,按照上面的类似格式写完以后,只需输入个命令,就自动生成最终的xml文件,目录文件也是自动生成的。

现在xml不是太大的难点,虽然我没动手写过xml文件。那个自动生成xml文件的程序才是困难的地方。虽然有不少代码【python的Docutils和vim的VST脚本】可以照抄。

[ 本帖最后由 柴荣 于 2008-8-9 21:02 编辑 ]

TOP

现在怎么办

TOP

发新话题