For faster navigation, this Iframe is preloading the Wikiwand page for 分詞書寫.

分詞書寫

本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。 此條目需要編修,以確保文法、用詞、语气格式標點等使用恰当。 (2024年3月11日)請按照校對指引,幫助编辑這個條目。(幫助討論) 此條目包含指南或教學內容。請藉由移除或重寫指南段落來改善條目,或在討論頁提出討論。 此條目需要精通或熟悉相关主题的编者参与及协助编辑。 (2023年12月9日)請邀請適合的人士改善本条目。更多的細節與詳情請參见討論頁

中文分詞書寫(Chinese word-segmented writing),也稱分詞連寫詞式書寫,是指像英文拼音文字一樣,按書寫,在詞與詞之間留出空格[1]。例如以下的句子在和詞之間加上空格,就是中文分詞書寫的句子。

乒乓 球拍 賣完了。

分詞書寫可提高漢語閱讀和信息處理的效率。例如:傳統寫法“乒乓球拍賣完了。”有歧義,用分詞書寫可根據需要明確表達爲“乒乓 球拍 賣完了。”或“乒乓球 拍賣 完了。”[2]

歷史

[编辑]

中文和英文都曾經沒有標點沒有分詞書寫。現在英文等拉丁文字兩者都用上了。中文在1900年代初五四新文化运动前后引入了標點符號,但是單詞之間仍然沒有邊界記號,沒有分開來寫。[3]

在1950年代,中國語言學家曾討論過採用分詞書寫的建議,但沒有獲得通過。 [3]

1987年,陳立為在國際中文信息處理會議上再次提出中文分詞書寫的想法。 [4]

第一篇分詞書寫的中文文章的出現不晚於1998年,當時在中國的〈中文信息學報〉中發表了題為《也谈汉语书面语的分词问题——分词连写十大好处》的論文。[5] 全文(共七頁)分詞連寫,其摘要如下:

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当 重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面 的 问题。文章 全文 分词 连写。

2018年,英文維基學院發表了一篇題為"Word segmentation of Hanzi" (漢字分詞)的短文,其中文版全文分詞如下:[6]

历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于 断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是 一次 重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚 起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个 显而易见的 障碍 - 断词 (汉字的 分词连写)。

第一本分詞書寫的書籍是2000年出版的《語言 理論》。 [7]

漢字分詞書寫

[编辑]

中文通常是用漢字書寫的,所以中文分詞書寫主要是指漢字文本的分詞書寫。以下介紹分詞書寫的一些方法或依據。

以表意為主導

[编辑]

分詞書寫的主要目的是準確、清楚地表達作者的意思。 例如,傳統的非分詞句子 「美國會反對。」 有兩種可能的含意,分詞書寫可根據需要清楚表達爲 「 美國 會 反對。」(The US will oppose.) 或 「 美 國會 反對。」 (The US Congress opposed)。又如,「昨天我應用鋼筆簽名。」也有歧義,用分詞書寫可以表達為「昨天 我 應用 鋼筆 簽名。(做了) 」和「昨天 我 應 用 鋼筆 簽名。 (可能沒做)」。這種區別對法庭來說可能很重要。 作者應該根據自己的意思選擇正確的分詞方式,消除歧義。 [3]

使用詞典和語言知識

[编辑]

如果不能確定某個字串是否為合法單詞,作者可以在可靠的漢語词典或分詞語料庫中檢查其是否存在,例如现代汉语词典重編國語辭典修訂本[8]和平衡語料庫[9]等。 或根據詞彙、詞法和句法知識檢查它是否是語言學上合格的單詞。 [10]

參考口語規則

[编辑]

在口語中,兩個單詞之間通常有或者可以有停頓,而單詞內音節之間一般不允許停頓。[11][12]

空格的寬度

[编辑]

兩個詞之間的間距設定為漢字寬度的一半比較合適,小於兩行之間的距離。 由於漢語詞的平均長度約為2個字,如果詞間空格是一個漢字的寬度,且大於行間距離,則頁面上的文字行會顯得分散,不緊湊。 更理想的做法是由電腦根據上下文環境做智能的動態調整,類似於MS Word的排版功能。[13]

專有名詞的標記

[编辑]

英文是用大寫字母來標記。漢字文本的專有名詞也應該有標記,例如用底線。[3] 事實上,某些中文聖經(例如現代標點和合本)已經這樣做了。例如:

7. 耶和華神用地上的塵土造人,將生氣吹在他鼻孔裏,他就成了有靈的活人,名叫亞當。8. 耶和華神在東方的伊甸立了一個園子,把所造的人安置在那裏。(創世記 2:7-8) [14]

拼音分詞书写

[编辑]

拼音通常用来给漢字注音,但是在初级汉语教学或对外汉语教学中有时也用拼音直接表达汉语,所以拼音的书写也是一种中文书写,同时还可以是汉字分词书写的重要参考。[15] 《漢語拼音正字法基本規則》是漢語拼音書寫和分詞的中國國家標準。其主要内容《5. 總則》摘錄如下:[16]

拼音正字法總則摘錄

[编辑]

5.1 拼寫普通話基本上以詞為書寫單位。例如: rén (人), pǎo (跑), hǎo (好), fúróng (芙蓉), māma (媽媽), diànshìjī (電視機), túshūguǎn (圖書館)。

5.2 表示一個整體概念的雙音節和三音節結構,連寫。例如: quánguó (全國), zǒulái (走來), dǎnxiǎo (膽小), duìbuqǐ (對不起), chīdexiāo (吃得消)。

5.3 四音節及四音節以上表示一個整體概念的名稱,按詞或語節(詞語內部由語音停頓而劃分成的片段)分寫,不能按詞或語節劃分的,全都連寫。例如: wúfèng gāngguǎn (無縫 鋼管), huánjìng bǎohù gūihuà (環境 保護 規劃), jīngtǐguǎn gōnglǜ fàngdàqì (晶體管 功率 放大器), yánjiūshēngyuàn (研究生院), hóngshízìhuì (紅十字會)。

5.4 單音節詞重疊,連寫;雙音節詞重疊,分寫。例如: rénrén (人人), niánnián (年年), yánjiū yánjiū (研究 研究), xuěbái xuěbái (雪白 雪白), tōnghóng tōnghóng (通紅 通紅)。

重疊並列即AABB式結構,連寫。例如: láilaiwǎngwǎng (來來往往), qīngqīngchǔchǔ (清清楚楚), fāngfāngmiànmiàn (方方面面)。

5.5 單音節前附成分(副、總、非、反、超、老、阿、可、無、半等)或單音節後附成分(子、兒、頭、性、者、員、家、手、化、們等)與其他詞語,連寫。例如: fùbùzhǎng (副部長), zǒnggōngchéngshī (總工程師), fùzǒnggōngchéngshī (副總工程師), zhuōzi (桌子), háizimen (孩子們)。

5.6 為了便於閱讀和理解,某些並列的詞、語素之間或某些縮略語當中可用連接號。例如: bā-jiǔ tiān (八-九 天), rén-jī duìhuà (人-機 對話), Jīng-Zàng Gāosù Gōnglù (京-藏 高速 公路)。

此外,還有一些其他方面的規則,請見該規範的原文。[17]

分词实例

[编辑]

下面是一個較長的分词书写例子。聯合國《世界人權宣言》中文版第一條 :[18]

人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。

其拼音可分詞連寫為

Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Tāmen fùyǒu lǐxìng hé liángxīn, bìng yīng yǐ xiōngdì guānxì de jīngshén xiāng duìdài.

相應的,其漢字文本分詞書寫形式是

人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应 以 兄弟 关系 的 精神 相 对待。

英文原文:[19]

All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

評論

[编辑]

優點

[编辑]

中文分詞書寫的優點包括:[20]

  1. 有利於語言表達和理解。
  2. 有利於漢語教學。
  3. 有利於語言學研究。
  4. 有利於漢語詞彙的定義和應用。
  5. 有利於電腦自然語言處理。
  6. 有利於拼音與漢字的自動轉換。
  7. 有利於簡繁體漢字轉換。
  8. 有利於校對文章、防止錯字。
  9. 有利於文件排版。
  10. 有利於軟體的漢化或西化。
  11. 將分詞書寫的文本自動正確轉換爲非分詞形式容易,反之則難。
  12. 等等。

缺點

[编辑]

中文分詞書寫的缺點包括:[21]

  1. 需要(大約1/4)更多的(紙面)空間。
  2. 人們還不習慣這種書寫方式。
  3. 需要辨識每個單詞。
  4. 句子看起來不像沒有空格的傳統格式那麼整齊。
  5. 大多數中文單詞都是一兩個字長,即使不使用邊界標記,辨識也不困難。

計算機自動分詞

[编辑]

在分詞書寫普及之前,可用計算機技術來進行漢語文本自動分詞。 目前自動分詞的準確度已達到百分之九十几, 但仍需要人工校對, 而且永遠不會像作者親自分詞那麼可靠。 [22] [23]

參見

[编辑]

參考資料

[编辑]
  1. ^ 陈, 力为 (陈力为). 汉语书面语的分词问题- - 一个有关全民的信息化问题. (中文信息学报). 1996,. 10 (1996) (1): 11–13 [2023-12-09]. (原始内容存档于2023-07-08). 
  2. ^ 张, 小衡 (张小衡). 也谈汉语书面语的分词问题——分词连写十大好处. 中文信息学报. 1998,. 12 (1998) (3): 57–63 [2023-12-09]. (原始内容存档于2023-06-06). 
  3. ^ 3.0 3.1 3.2 3.3 陈 1996,第12頁.
  4. ^ 陈, 力为 (陈力为). 当前中文信息处理 中的几个问题及其发展前景. 计算机世界(Chinese Computer World ). 1987, 21 (34). 
  5. ^ 张 1998,第57-63頁.
  6. ^ English-Chinese/Word segmentation of Hanzi - Wikiversity. [2023-12-09]. (原始内容存档于2023-07-08). 
  7. ^ 彭, 泽润 (彭泽润、李葆嘉 eds). 语言理论. 长沙: 中南大学出版社. 2000. ISBN 978-7-810-61342-2 (中文). 
  8. ^ 教育部《重編國語辭典修訂本》. 2021 [2023-12-08]. (原始内容存档于2024-06-05). 
  9. ^ 存档副本. [2023-12-09]. (原始内容存档于2023-09-28). 
  10. ^ 张 1998,第61頁.
  11. ^ Haspelmath, Martin. The indeterminacy of word segmentation and the nature of morphology and syntax. Folia Linguistica. 2011, 45 (1) [2023-12-09]. ISSN 0165-4004. S2CID 62789916. doi:10.1515/flin.2011.002. (原始内容存档于2023-09-22). 
  12. ^ 存档副本. [2023-12-09]. (原始内容存档于2024-05-28). 
  13. ^ 张 1998,第62頁.
  14. ^ 聯合聖經公會. 聖經(現代標點和合本). 香港: 浸信會出版社. 1998. ISBN 962-933-101-2 (中文). 
  15. ^ Arcodia, Giorgio (and Basciano, Bianca). Chinese Linguistics. Oxford: Oxford University Press. 2021: 84–85. ISBN 978-0-19-884784-7. 
  16. ^ 国家语委. 漢語拼音正字法基本規則 (PDF). 2012 [2023-12-08]. (原始内容存档 (PDF)于2020-12-06). 
  17. ^ 国家语委 2012.
  18. ^ Universal Declaration of Human Rights - Chinese, Mandarin (Simplified). unicode.org. [2023-12-11]. (原始内容存档于2022-01-19). 
  19. ^ 存档副本. [2023-12-23]. (原始内容存档于2021-03-16). 
  20. ^ 張 1998,第57-61頁.
  21. ^ 陳 1996,第12頁.
  22. ^ 张 1998,第57頁.
  23. ^ 劉, 開瑛 (劉開瑛). 中文文本自動分詞和標注. 北京: 商務印書館. 2021. ISBN 7-100-03068-4. 

外部連結

[编辑]
{{bottomLinkPreText}} {{bottomLinkText}}
分詞書寫
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.

X

Get ready for Wikiwand 2.0 🎉! the new version arrives on September 1st! Don't want to wait?