銷售pos機(jī)口語(yǔ),中文和英文語(yǔ)言差異和計(jì)算機(jī)處理的區(qū)別

新聞資訊2 | 2023-06-24 11:12 | 投稿人：pos機(jī)之家

網(wǎng)上有很多關(guān)于銷售pos機(jī)口語(yǔ),中文和英文語(yǔ)言差異和計(jì)算機(jī)處理的區(qū)別的知識(shí)，也有很多人為大家解答關(guān)于銷售pos機(jī)口語(yǔ)的問(wèn)題，今天pos機(jī)之家(www.rcqwhg.com)為大家整理了關(guān)于這方面的知識(shí)，讓我們一起來(lái)看下吧!

本文目錄一覽：

1、銷售pos機(jī)口語(yǔ)

銷售pos機(jī)口語(yǔ)

關(guān)于作者

陳運(yùn)文：達(dá)觀數(shù)據(jù)創(chuàng)始人，復(fù)旦大學(xué)計(jì)算機(jī)博士，科技部“萬(wàn)人計(jì)劃”專家，國(guó)際計(jì)算機(jī)學(xué)會(huì)（ACM）、電子電器工程師學(xué)會(huì)（IEEE）、中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）、中國(guó)人工智能學(xué)會(huì)（CAAI）高級(jí)會(huì)員；第九屆上海青年科技英才。在人工智能領(lǐng)域擁有豐富研究成果，是復(fù)旦大學(xué)、上海財(cái)經(jīng)大學(xué)聘任的校外研究生導(dǎo)師，在IEEE Transactions、SIGKDD等國(guó)際頂級(jí)學(xué)術(shù)期刊和會(huì)議上發(fā)表數(shù)十篇高水平科研成果論文，譯有人工智能經(jīng)典著作《智能Web 算法》（第2 版），并參與撰寫《數(shù)據(jù)實(shí)踐之美》等論著；曾多次摘取ACM KDD CUP、CIKM、EMI Hackathon等世界最頂尖的大數(shù)據(jù)競(jìng)賽的冠亞軍榮譽(yù)。

人類經(jīng)過(guò)漫長(zhǎng)的歷史發(fā)展，在世界各地形成了很多不同的語(yǔ)言分支，其中漢藏語(yǔ)系和印歐語(yǔ)系是使用人數(shù)最多的兩支。英語(yǔ)是印歐語(yǔ)系的代表，而漢語(yǔ)則是漢藏語(yǔ)系的代表。中英文語(yǔ)言的差異十分鮮明，英語(yǔ)以表音（字音）構(gòu)成，漢語(yǔ)以表義（字形）構(gòu)成，印歐和漢藏兩大語(yǔ)系有很大的區(qū)別。

盡管全世界語(yǔ)言多達(dá)5600種，但大部數(shù)人類使用的語(yǔ)言集中在圖中的前15種（覆蓋全球90%以上人群）。其中英語(yǔ)為母語(yǔ)和第二語(yǔ)的人數(shù)最多，近14億人，是事實(shí)上的世界通用語(yǔ)。其次是漢語(yǔ)，約占世界人口的23%。英語(yǔ)和漢語(yǔ)相加的人數(shù)占世界總?cè)藬?shù)的近一半，因此處理中英文兩種語(yǔ)言非常關(guān)鍵。

人工智能時(shí)代，讓計(jì)算機(jī)自動(dòng)化進(jìn)行文字語(yǔ)義理解非常重要，廣泛應(yīng)用于社會(huì)的方方面面，而語(yǔ)言本身的復(fù)雜性又給計(jì)算機(jī)技術(shù)帶來(lái)了很大的挑戰(zhàn)，攻克文本語(yǔ)義對(duì)實(shí)現(xiàn)AI全面應(yīng)用有至關(guān)重要的意義。相應(yīng)的自然語(yǔ)言處理（Natural Language Processing，NLP）技術(shù)因而被稱為是“人工智能皇冠上的明珠”。

中國(guó)和美國(guó)作為AI應(yīng)用的兩個(gè)世界大國(guó)，在各自語(yǔ)言的自動(dòng)化處理方面有一些獨(dú)特之處。接下來(lái)筆者對(duì)中文和英文語(yǔ)言特點(diǎn)的角度出發(fā)，結(jié)合自己的從業(yè)經(jīng)驗(yàn)來(lái)歸納下兩種語(yǔ)言下NLP的異同點(diǎn)。（達(dá)觀數(shù)據(jù)陳運(yùn)文）

一、中英文分詞方式不同

分詞是中英文NLP差異最廣為人知的一點(diǎn)。我們都知道英文的單詞之間天然存在空格來(lái)分隔，因此在進(jìn)行英文文本處理時(shí)，可以非常容易的通過(guò)空格來(lái)切分單詞。例如英文句子：

DataGrand is a Chinese company

可輕松切分為DataGrand / is / a / Chinese / company（文本用/表示詞匯分隔符）。

中文在每句話中間是不存在分隔符的，而是由一串連續(xù)的漢字順序連接構(gòu)成了句子?，F(xiàn)代漢語(yǔ)里表達(dá)意思的基本語(yǔ)素是詞而不是字。例如“自然”，拆為“自”和“然”都不能單獨(dú)表意，兩個(gè)字合并組成的詞才能有準(zhǔn)確的意義，對(duì)應(yīng)英文單詞是Nature。因此在我們使用計(jì)算機(jī)技術(shù)對(duì)中文進(jìn)行自動(dòng)語(yǔ)義分析時(shí)，通常首要操作就是中文分詞（Chinese Word Segmentation）。中文分詞是指按人理解漢語(yǔ)的方式，將連續(xù)的漢字串切分為能單獨(dú)表義的詞匯。例如中文句子：

“達(dá)觀數(shù)據(jù)是一家中國(guó)公司。”

讓計(jì)算機(jī)來(lái)處理，第一步需要切分為“達(dá)觀數(shù)據(jù)/是/一家/中國(guó)/公司”這樣的詞串的形式，然后再進(jìn)行后續(xù)的理解和處理。

如何正確的根據(jù)語(yǔ)義完成中文切分是一個(gè)挑戰(zhàn)性的任務(wù)，一旦切詞發(fā)生失誤，會(huì)導(dǎo)致后續(xù)的文本處理產(chǎn)生連鎖問(wèn)題，給正確理解語(yǔ)義帶來(lái)障礙。為了快速準(zhǔn)確的切分好中文，學(xué)術(shù)界迄今有超過(guò)50年的研究，提出了很多方法。中文切詞常見方法里既有經(jīng)典的機(jī)械切分法（如正向/逆向最大匹配，雙向最大匹配等），也有效果更好一些的統(tǒng)計(jì)切分方法（如隱馬爾可夫HMM，條件隨機(jī)場(chǎng)CRF），以及近年來(lái)興起的采用深度神經(jīng)網(wǎng)絡(luò)的RNN，LSTM等方法。

由于漢語(yǔ)語(yǔ)法本身極為靈活，導(dǎo)致歧義語(yǔ)義時(shí)常發(fā)生，給正確完成中文分詞帶來(lái)了很多障礙。如例句“嚴(yán)守一把手機(jī)關(guān)了”所示，按照語(yǔ)義理解，正確切分方式為“嚴(yán)守一/把/手機(jī)/關(guān)了”，而算法有誤時(shí)容易切分為“嚴(yán)守/一把/手機(jī)/關(guān)了”。

更困難的是，有些時(shí)候兩種切詞方法意思都對(duì)，例如“乒乓球拍賣了”，切分為“乒乓/球拍/賣了”和“乒乓球/拍賣/了”本身都可行，必須要依賴更多上下文來(lái)選擇當(dāng)前正確的切分方法。類似的還有“南京市長(zhǎng)江大橋”、“吉林省長(zhǎng)春藥店”等等。如果把“市長(zhǎng)”“省長(zhǎng)”等切出來(lái)，整句話的理解就偏差很多了。常見歧義類型包括交叉歧義（Cross Ambiguity）和組合歧義（Combination Ambiguity）等，在語(yǔ)義消岐方面近年不斷有國(guó)內(nèi)外學(xué)者提出新的解決思路，來(lái)解決漢藏語(yǔ)系的這個(gè)特定問(wèn)題。

此處順便一提，和中文類似，日文句子內(nèi)部同樣缺乏天然的分隔符，因此日文也同樣存在分詞需求。日文受漢語(yǔ)語(yǔ)法的影響很深，但同時(shí)又受表音語(yǔ)法的影響，明治時(shí)代還曾興起過(guò)廢漢字興拼音的運(yùn)動(dòng)，行文上漢字和假名混雜，好比中英文混血兒。業(yè)內(nèi)比較知名的日文分詞器有MeCab，其算法內(nèi)核是條件隨機(jī)場(chǎng)CRF。事實(shí)上，如果將MeCab的內(nèi)部訓(xùn)練語(yǔ)料由日文更換為中文后，也同樣可以用于切分中文。

隨著深度學(xué)習(xí)技術(shù)近年來(lái)在NLP領(lǐng)域成功的應(yīng)用，一些seq2seq學(xué)習(xí)過(guò)程可以不再使用分詞，而是直接將字作為輸入序列，讓神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)其中的特征，這在一些端到端的應(yīng)用中（如自動(dòng)摘要、機(jī)器翻譯、文本分類等）確實(shí)省略了中文分詞這一步驟，但是一方面還有很多的NLP應(yīng)用離不開分詞的結(jié)果，如關(guān)鍵詞提取、命名實(shí)體識(shí)別、搜索引擎等；另一方面切分所得的詞匯也可以和單字一起作為特征輸入，用以增強(qiáng)效果。因此分詞仍然是工程界進(jìn)行中文處理時(shí)的一項(xiàng)重要技術(shù)。

二、英文語(yǔ)素和中文偏旁的使用

英文單詞的提取雖然比中文簡(jiǎn)單的多，通過(guò)空格就能完整的獲取單詞，但英文特有的現(xiàn)象是單詞存在豐富的變形變換。為了應(yīng)對(duì)這些復(fù)雜的變換，英文NLP相比中文存在一些獨(dú)特的處理步驟，我們稱為詞形還原（Lemmatization）和詞干提?。⊿temming）。

詞形還原是因?yàn)橛⑽膯卧~有豐富的單復(fù)數(shù)、主被動(dòng)、時(shí)態(tài)變換（共16種）等情況，在語(yǔ)義理解時(shí)需要將單詞“恢復(fù)”到原始的形態(tài)從而讓計(jì)算機(jī)更方便的進(jìn)行后續(xù)處理。例如“does，done，doing，do，did”這些單詞，需要通過(guò)詞性還原統(tǒng)一恢復(fù)為“do”這個(gè)詞，方便后續(xù)計(jì)算機(jī)進(jìn)行語(yǔ)義分析。類似的：“potatoes，cities，children，teeth”這些名詞，需要通過(guò)Lemmatization轉(zhuǎn)為“potato，city，child，tooth”這些基本形態(tài)；同樣“were，beginning，driven”等要轉(zhuǎn)為“are，begin，drive”。請(qǐng)注意詞形還原通常還需要配合詞性標(biāo)注（pos-tag）一起來(lái)進(jìn)行，以確保還原準(zhǔn)確度，避免歧義發(fā)生。因?yàn)橛⑽闹写嬖谝恍┒嗔x詞的情況，例如calves就是個(gè)多義詞，即可以作為calf（名詞，牛犢）的復(fù)數(shù)形式，也可以是calve（動(dòng)詞，生育小牛）的第三人稱單數(shù)。所以詞形還原也有兩種選擇，需要按實(shí)際所表示的詞性來(lái)挑選合適的還原方法。

詞干提?。⊿temming）是英文中另一項(xiàng)獨(dú)有的處理技術(shù)。英文單詞雖然是句子中的基礎(chǔ)表義單元，但并非是不可再分的。英文單詞內(nèi)部都是由若干個(gè)詞素構(gòu)成的。詞素又分為詞根（roots）和詞綴（前綴prefix或后綴suffix），而詞根的原形稱為詞干（stems）。例如單詞disability，dis-就是表示否定意思的常用前綴，-lity是名詞常用后綴，able是表示“能力”的詞干，這些詞素合并在一起就構(gòu)成了單詞的含義。

英文的詞素種類非常多（最常用的有300多個(gè)），很多源自拉丁語(yǔ)和希臘文。提取詞素對(duì)理解英文單詞的含義起著非常重要的作用，例如semiannually這個(gè)單詞，可能有的朋友并不認(rèn)識(shí)，如果通過(guò)詞素來(lái)看：前綴semi-表示“一半”的意思，詞干annul表示年，-ly是副詞后綴，semiannually這個(gè)單詞的含義是“每半年進(jìn)行一次的”。Ambidextrous，heterophobia，interplanetary，extraterritorial等這些看著很復(fù)雜的詞匯，通過(guò)拆解詞干的方法能很方便的把握單詞含義，對(duì)人類和對(duì)計(jì)算機(jī)來(lái)說(shuō)都是如此。常見Stemming方法包括Porter Stemming Algorithm, Lovins Algorithm和Lancaster(Paice/Husk) Algorithm。目前大部分英文NLP系統(tǒng)都包括詞形還原（Lemmatization）和詞干提?。⊿temming）模塊。（陳運(yùn)文）

相比英文，中文里是沒有詞干的概念的，也無(wú)需進(jìn)行詞干提取，這是中文NLP中相對(duì)簡(jiǎn)便的一塊。但在中文里有一個(gè)相近的概念是偏旁部首。和英文中“單詞不懂看詞干”類似，中文里“漢字不識(shí)看偏旁”。例如“猴、狗、豬、貓、狼”這些漢字，顯然都是動(dòng)物名詞。當(dāng)出現(xiàn)漢字“狁”時(shí)，即使不認(rèn)識(shí)也能通過(guò)部首“犭”猜出這是一個(gè)動(dòng)物名稱，且發(fā)音類似“允”字。再比如“木，林，森”這些字都和樹木相關(guān)，數(shù)量還遞增?！版i、錫、銀、鏡、鐵、鍬”都和金屬有關(guān)?！安伞弊趾褪肿ブ参镉嘘P(guān)?！扒簟弊趾汀霸小弊志透庇^形象了。

借鑒英文中詞干提取的方法，很多人自然會(huì)立刻想到：是否我們拆分中文漢字的偏旁部首，作為特征輸入，也能更好的幫助計(jì)算機(jī)理解中文語(yǔ)義呢？學(xué)術(shù)界確實(shí)也有人做過(guò)此類嘗試，但是整體收益都不像英文詞干分析那么明顯，這背后的原因是什么呢？筆者認(rèn)為，其原因首先是常用漢字的數(shù)量遠(yuǎn)比英文單詞要少，相比英文單詞數(shù)量動(dòng)輒數(shù)萬(wàn)計(jì)，加上各種前后綴和詞形變換數(shù)量更多，中文漢字最常用的才過(guò)千個(gè)。因?yàn)樽稚?，每個(gè)漢字的意思多，這些漢字的含義通過(guò)上下文來(lái)獲取的語(yǔ)義描述信息足夠充分，拆分偏旁后額外再能添補(bǔ)的信息作用非常小。即便對(duì)罕見字來(lái)說(shuō)偏旁確實(shí)能額外補(bǔ)充特征，但因?yàn)樗鼈冊(cè)谌粘Ｎ谋局谐霈F(xiàn)頻次太少，對(duì)整體文本語(yǔ)義理解的作用很有限，只有在一些專業(yè)性文書的應(yīng)用上可能起少量幫助。

其次是漢字經(jīng)過(guò)數(shù)千年的演化，再加上簡(jiǎn)化字的使用，很多字形和含義已經(jīng)發(fā)生了巨大變化，偏旁未必能準(zhǔn)確表達(dá)字的意思，甚至使用偏旁可能還會(huì)引入一些噪聲特征。第三是現(xiàn)代漢語(yǔ)里表義的基本單元是多個(gè)漢字構(gòu)成的詞，而不是單字。這和英文中表義單元是單詞完全不同。因此對(duì)單個(gè)漢字的偏旁處理對(duì)整個(gè)中文NLP起到的作用非常輕微，并未成為中文NLP里常用的做法。

三、詞性標(biāo)注方法的差異

詞性是語(yǔ)言學(xué)的一個(gè)概念，根據(jù)上下文將每個(gè)詞根據(jù)性質(zhì)劃歸為特定的類型，例如n.名詞 v.動(dòng)詞 adj.形容詞 adv.副詞等就是最常見的幾類詞性。中英文的詞性盡管整體相似，例如表達(dá)一個(gè)物品（如蘋果Apple，火車Train）通常是名詞，而描述一個(gè)動(dòng)作（如跑步Run，打開Open）一般是動(dòng)詞，但在很多細(xì)節(jié)上存在差異。如果計(jì)算機(jī)能夠?qū)γ總€(gè)詞匯的詞性進(jìn)行正確的識(shí)別，無(wú)疑對(duì)增強(qiáng)語(yǔ)義分析的效果有幫助（注：同樣在seq2seq里詞性并不必須，但是對(duì)詞性的正確理解仍然有其特定價(jià)值）。

在NLP里有技術(shù)分支稱為詞性標(biāo)注（Part-Of-Speech tagging, POS tagging），中英文各自有其特點(diǎn)。

其一是英文中有一些中文所沒有的詞性。這些詞性大量存在，給語(yǔ)義理解帶來(lái)了很好的指引作用。其中最典型的就是英文特有的兩個(gè)詞性：一是冠詞，二是助動(dòng)詞。中文里沒有冠詞一說(shuō)，在英文中冠詞（Article，一般簡(jiǎn)稱art.）也是詞性最小的一類，只有三個(gè)：不定冠詞（Indefinite art.）、定冠詞（Definite art.）和零冠詞（Zero art.）。如英文中無(wú)處不在的單詞“the”就是定冠詞，the后面通常會(huì)緊跟著出現(xiàn)句子的關(guān)鍵名詞+介詞短語(yǔ)。例如“Show me the photo of your company”，通過(guò)定冠詞the的指示，很容易的定位本句話的關(guān)鍵實(shí)詞是photo。類似的，前面例句“DataGrand is a Chinese company”里“a”這樣的不定冠詞也可以很好的指示出賓語(yǔ)“company”。這些大量出現(xiàn)的冠詞雖然是虛詞，本身并沒有明確含義，但在NLP中用于定位句子中的關(guān)鍵實(shí)詞，判斷實(shí)詞種類（是否可數(shù)，是否專有名詞等），進(jìn)而識(shí)別出句法結(jié)構(gòu)（后面還會(huì)詳細(xì)介紹）等，起到了很大的指示作用，也降低了計(jì)算機(jī)進(jìn)行語(yǔ)義理解的難度，因而這方面英文比中文有先天優(yōu)勢(shì)。

助動(dòng)詞（Auxiliary Verb）也是英文特有的現(xiàn)象，助動(dòng)詞的作用是協(xié)助主要?jiǎng)釉~構(gòu)成謂語(yǔ)詞組，如am, is, have, do, are, will, shall, would,should, be going to等都是常見助動(dòng)詞，在英文句子中也大量存在，和冠詞用于指示主語(yǔ)賓語(yǔ)類似，助動(dòng)詞對(duì)識(shí)別主要?jiǎng)釉~（Main Verb）和謂語(yǔ)會(huì)起幫助。

其次，英文在詞性方面的劃分和使用更嚴(yán)謹(jǐn)，詞匯在變換詞性的時(shí)候會(huì)在詞尾形成豐富的變化。例如-ing、-able、-ful、-ment、-ness等都對(duì)確認(rèn)詞性給出具體的提示。名詞中還會(huì)進(jìn)一步區(qū)分可數(shù)名詞、不可數(shù)名詞，在詞尾用-s、-es來(lái)區(qū)分。動(dòng)詞也同樣會(huì)存在發(fā)生時(shí)態(tài)的指示，過(guò)去式，現(xiàn)在時(shí)，未來(lái)時(shí)等非常明確，因此在英文語(yǔ)法中幾乎沒有詞性混淆不清的情況發(fā)生。

而中文的詞性則缺乏類似英文這樣的明確規(guī)范。中國(guó)著名的語(yǔ)言學(xué)家沈家煊先生在著作《語(yǔ)法六講》中就曾提出“漢語(yǔ)動(dòng)詞和名詞不分立”的觀點(diǎn)，將確認(rèn)漢語(yǔ)詞性的問(wèn)題描述為“詞有定類”則“類無(wú)定職”，而“類有定職”則“詞無(wú)定類”。和英文中名詞、動(dòng)詞、形容詞三大類詞匯相互獨(dú)立的“分立模式”不同，中文更類似“包含模式”，即形容詞作為一個(gè)次類包含在動(dòng)詞中，動(dòng)詞本身又作為次類被名詞包含，而且這個(gè)詞性的轉(zhuǎn)換過(guò)程非常微妙，缺乏表音語(yǔ)言中的前后綴指示。例如“他吃飯去了”中“吃飯”是動(dòng)詞，只需要句式稍加變換為“他吃飯不好”，此時(shí)“吃飯”就搖身一變成名詞了?！盁釔劬幊獭?、“挖掘數(shù)據(jù)”中，“編程”、“挖掘”等詞，既可以是名詞也可以是動(dòng)詞。形容詞也有類似的情況，如“活躍”是個(gè)常見的形容詞，常用句為“他表現(xiàn)非?；钴S”。但有時(shí)也可以變身為動(dòng)詞“他去活躍氣氛”，還能變?yōu)槊~“活躍是一種行為習(xí)慣”?？梢姖h語(yǔ)語(yǔ)境的變化給詞性帶來(lái)非常微妙的變化。（陳運(yùn)文）

漢語(yǔ)沒有英文的屈折變化的特點(diǎn)，不像英語(yǔ)能通過(guò)靈活的詞尾變化來(lái)指示詞性變化，漢語(yǔ)這種一詞多性且缺乏指示的特點(diǎn)，給計(jì)算機(jī)詞性標(biāo)注帶來(lái)了很大的困難，業(yè)界對(duì)詞性的標(biāo)準(zhǔn)以及標(biāo)準(zhǔn)測(cè)試集也很不完善。很多具體詞匯的詞性甚至讓人工來(lái)研讀都模棱兩可，讓算法自動(dòng)來(lái)識(shí)別就更難了。例如：“他很開心”、“他逗她開心”、“他開心不起來(lái)”、“他開心的很”、“開心是他很重要的特點(diǎn)”，這里“開心”的詞性讓人來(lái)判斷都很難搞明白，甚至存在爭(zhēng)議。而反觀英語(yǔ)里一個(gè)詞被標(biāo)為動(dòng)詞還是名詞幾乎不存在爭(zhēng)議。對(duì)這些模糊的情況，一些中文語(yǔ)料標(biāo)注庫(kù)里干脆用“動(dòng)名詞vn”、“形名詞an”等來(lái)標(biāo)記，擱置爭(zhēng)議，模糊處理。

在目前中文NLP詞性標(biāo)注中，“名動(dòng)形”糊在一起的特點(diǎn)仍然沒有找到特別好的處理手段，也給后面的句法結(jié)構(gòu)分析，詞匯重要性判斷，核心關(guān)鍵詞提取等語(yǔ)義理解課題帶來(lái)了干擾。

四、標(biāo)點(diǎn)符號(hào)和字體特征

在自然語(yǔ)言處理應(yīng)用中，很容易被忽略的是標(biāo)點(diǎn)和字體等信息的利用。尤其學(xué)術(shù)界研究核心算法時(shí)一般都會(huì)忽略這些“次要”信息，大部分學(xué)術(shù)測(cè)試集合干脆是沒有字體信息的，標(biāo)點(diǎn)也不講究。但是在實(shí)際工程應(yīng)用中，這些信息能起不小的作用。而英漢語(yǔ)在其使用方面也存在一些差異。標(biāo)點(diǎn)（如？?。骸?。等）和字體（字母大小寫，斜體，粗體等）雖然本身沒有具體語(yǔ)義，但在辨識(shí)內(nèi)容時(shí)起重要的引導(dǎo)作用。不妨讓我們想像一下，如果把我這篇文章里所有標(biāo)點(diǎn)、分段、標(biāo)題字體等都去掉，讓人來(lái)閱讀理解本文內(nèi)容，難度是不是立刻會(huì)加大很多？若是換成計(jì)算機(jī)來(lái)讀那就更麻煩了。

在英語(yǔ)中（尤其是書面語(yǔ)中），逗號(hào)和句號(hào)的使用有明確規(guī)范，一句話結(jié)尾要求必須用句號(hào)符“.”，并且下一句話的第一個(gè)單詞的首字母要求大寫。英文中從句非常多，從句之間要求用逗號(hào)“,”連接，以表示語(yǔ)義貫通。不僅如此，當(dāng)一句話的主謂賓完整出現(xiàn)后，如果下一句話也同樣是一個(gè)完整句子，則兩句話中間或者需要用連詞（如and, or, therefore, but, so, yet, for, either等）連接，或者必須用句號(hào)“.”分割，如果中間用“,”且沒有連接詞，則屬于正式文書中的用法錯(cuò)誤。如：

The algorithms and programs,which used on the website, are owned by the company called DataGrand, and are well known in China.

這里出現(xiàn)的標(biāo)點(diǎn)和大小寫字體是良好的句子語(yǔ)義指示符，既分割不同句子，也在句子內(nèi)部分割不同語(yǔ)義，這些規(guī)范給英文NLP處理創(chuàng)造了較好的環(huán)境。

中文標(biāo)點(diǎn)的使用則沒有這么強(qiáng)的規(guī)范。事實(shí)上中文標(biāo)點(diǎn)在中國(guó)古代官方文書中一直不被采用，僅扮演民間閱讀中的停頓輔助符的角色。直到1919年中華民國(guó)教育部在借鑒了西方各國(guó)標(biāo)點(diǎn)規(guī)范后才第一次制定了漢語(yǔ)的12中符號(hào)和使用方法，建國(guó)后在1951年和1990年兩次修訂后逐步成型。因?yàn)闅v史沿革的原因，這些對(duì)標(biāo)點(diǎn)的使用規(guī)范更多偏向于指導(dǎo)意見，而不是一套強(qiáng)制標(biāo)準(zhǔn)。例如對(duì)逗號(hào)和句號(hào)何時(shí)使用，并不像英語(yǔ)中有特別嚴(yán)格的界定。漢語(yǔ)的分句較為模糊，意思表達(dá)完以后雖通常用句號(hào)，但用逗號(hào)繼續(xù)承接后面的句子也并不算錯(cuò)，只要整篇文章不是極端的“一逗到底”，即使語(yǔ)文老師在批閱作文時(shí)也都不會(huì)過(guò)分對(duì)標(biāo)點(diǎn)較真，而日常文章中標(biāo)點(diǎn)的使用更是隨心所欲了。

與此同時(shí)，英文里專有名詞用大寫或者斜體字體來(lái)區(qū)分，首字母大寫等用法，在中文中也不存在。NLP處理中，中文標(biāo)點(diǎn)和字體使用的相對(duì)隨意給句法分析也帶來(lái)了巨大的挑戰(zhàn)，尤其在句子級(jí)別的計(jì)算機(jī)語(yǔ)義理解方面中文比英文要困難很多。

除了上述不利因素，中文也有一些獨(dú)特的標(biāo)點(diǎn)帶來(lái)有利的因素。例如書名號(hào)《》就是中文所獨(dú)有的符號(hào)，感謝這個(gè)符號(hào)！書名號(hào)能非常方便的讓計(jì)算機(jī)程序來(lái)自動(dòng)識(shí)別專有名詞（如書名、電影名、電視劇、表演節(jié)目名等），這些名詞往往都是未登錄詞，如果沒有書名號(hào)的指引，讓計(jì)算機(jī)程序自動(dòng)識(shí)別這些中文專名的難度將加大很多，而這些專名詞匯恰恰都體現(xiàn)了文章的關(guān)鍵語(yǔ)義。例如下面這段新聞如果讓計(jì)算機(jī)來(lái)閱讀：“由于流浪地球的內(nèi)容很接近好萊塢大片，因此影評(píng)人比較后認(rèn)為不僅達(dá)到了2012的水平，而且對(duì)比星際穿越也毫不遜色。

”。要求計(jì)算機(jī)自動(dòng)提取上面這句話的關(guān)鍵詞會(huì)非常困難，因?yàn)槔锩嬗泻芏辔吹卿浽~，對(duì)“2012”的理解也會(huì)有歧義（時(shí)間詞？or電影名？）

而正因?yàn)槲覀冎形挠袝?hào)，迎刃而解：“由于《流浪地球》的內(nèi)容很接近好萊塢大片，因此影評(píng)人比較后認(rèn)為不僅達(dá)到了《2012》的水平，而且對(duì)比《星際穿越》也毫不遜色?！薄３藭?hào)，漢語(yǔ)的頓號(hào)（、）也能很好的指示并列關(guān)系的內(nèi)容，“達(dá)觀每天下午的水果餐很豐富，有桃子、葡萄、西瓜和梨”，這些并列的內(nèi)容可以很方便的被計(jì)算機(jī)解讀。

英文則沒有書名號(hào)和頓號(hào)等，而是采用特殊字體（例如加粗、斜體、大寫，各不相同，沒有強(qiáng)制約定）等形式來(lái)標(biāo)識(shí)出這些專有名詞。因此在處理英文時(shí)，這些字體信息起很重要的作用，一旦丟失會(huì)帶來(lái)麻煩。

值得一提的是，在日常聊天文字中，標(biāo)點(diǎn)符號(hào)和字母使用的含義產(chǎn)生了很多新的變化。例如對(duì)話文本中“。。。。。”往往表達(dá)出“無(wú)語(yǔ)”的情緒?！埃俊焙汀?？？？”前者是疑問(wèn)，后者更多表達(dá)震驚。還有 :) \\^o^/ ORZ等各類的符號(hào)的變換使用，給開發(fā)對(duì)話機(jī)器人的工程師們帶來(lái)了很多新的挑戰(zhàn)。

五、詞匯粒度的處理方法差異

詞匯粒度問(wèn)題雖然在NLP學(xué)界被討論的不多，但的的確確NLP實(shí)戰(zhàn)應(yīng)用中的一個(gè)關(guān)鍵要點(diǎn)，尤其在搜索引擎進(jìn)行結(jié)果召回和排序時(shí)，詞匯粒度在其中扮演關(guān)鍵角色，如果對(duì)其處理不恰當(dāng)，很容易導(dǎo)致搜索質(zhì)量低下的問(wèn)題。

我們先看中文，詞匯粒度和分詞機(jī)制有很大關(guān)系，先看個(gè)例子：“中華人民共和國(guó)”這樣一個(gè)詞，按不同粒度來(lái)切，既可大粒度切為：“中華人民，人民共和國(guó)”，也可進(jìn)一步切出“中華，人民，共和國(guó)”，而“共和國(guó)”還可以進(jìn)一步切為“共和，國(guó)”。一般我們把按最小粒度切分所得的詞稱為“基本粒度詞”。在這個(gè)例子中，基本粒度詞為“中華，人民，共和，國(guó)”4個(gè)詞。甚至“中華”還能繼續(xù)切出“中/華”也有表義能力（這個(gè)后面還會(huì)詳細(xì)分析）

為什么分詞需要有不同的粒度呢？因?yàn)楦饔凶饔谩４罅６仍~的表義能力更強(qiáng)，例如“中華人民共和國(guó)”這樣的大粒度詞，能完整準(zhǔn)確的表達(dá)一個(gè)概念，適合作為文章關(guān)鍵詞或標(biāo)簽提取出來(lái)。在搜索引擎中直接用大粒度詞去構(gòu)建倒排索引并搜索，一般可得到相關(guān)性（準(zhǔn)確率）更好的結(jié)果。

但從事過(guò)信息檢索的朋友們想必清楚召回率（Recall）和準(zhǔn)確率（Precision）永遠(yuǎn)是天平兩端互相牽制的兩個(gè)因素。大粒度詞在搜索時(shí)會(huì)帶來(lái)召回不足的問(wèn)題。例如一篇寫有“人民共和國(guó)在中華大地上誕生了起來(lái)”的文章，如果用“中華人民共和國(guó)”這個(gè)詞去倒排索引中搜索，是無(wú)法匹配召回的，但拆分為“中華人民共和國(guó)”三個(gè)詞進(jìn)行搜索就能找出來(lái)。所以一個(gè)成熟的分詞器，需要因地制宜的設(shè)置不同粒度的分詞策略，并且最好還能確保在檢索詞處理（Query Analysis）和索引構(gòu)建（Index Building）兩端的切分策略保持一致（陳運(yùn)文）。目前學(xué)術(shù)界公開的分詞測(cè)試集合，往往都是只有一種粒度，而且粒度劃分標(biāo)準(zhǔn)也并不一致，導(dǎo)致很多評(píng)測(cè)結(jié)果的高低離實(shí)際使用效果好壞有一定距離。

在中文分詞粒度里，有一個(gè)非常令人頭疼的問(wèn)題是“基本粒度詞”是否可繼續(xù)拆分的問(wèn)題。就好比在化學(xué)中，通常約定原子（atom）是不可再分的基本微粒，由原子來(lái)構(gòu)成各類化學(xué)物質(zhì)。但如果進(jìn)一步考慮原子可分，那么整個(gè)化學(xué)的根基就會(huì)動(dòng)搖。同樣在中文NLP領(lǐng)域，雖然學(xué)術(shù)界通常都默認(rèn)基本粒度詞不再可分，但在實(shí)際工程界，基本詞不可再分會(huì)導(dǎo)致很多召回不足的問(wèn)題，引入難以解決的bad case。不要小看這個(gè)問(wèn)題，這是目前限制中文語(yǔ)義理解的一個(gè)特別常見的難題。要解釋清楚來(lái)龍去脈，筆者還得從漢語(yǔ)的發(fā)展歷程說(shuō)起。

中國(guó)古代漢語(yǔ)的表義基本單位是字而不是詞。我從《論語(yǔ)》中拿一句話來(lái)舉例：“己所不欲，勿施于人”。古代漢語(yǔ)一字一詞，這句話拿來(lái)分詞的話結(jié)果應(yīng)該是“己/所/不/欲，勿/施/于/人”，可見全部切散為單字了。如果用現(xiàn)代白話文把這句話翻譯過(guò)來(lái)，則意思是“自己都不愿意的方式，不要拿來(lái)對(duì)待別人”?，F(xiàn)代漢語(yǔ)的特點(diǎn)是一般喜歡把單字都雙音節(jié)化，“己-->自己，欲-->愿意，勿-->不要，施-->對(duì)待，人-->別人”?？梢钥闯鲞@些雙音節(jié)（或多音節(jié)）詞匯中部分蘊(yùn)含著來(lái)源單字的意義。這種現(xiàn)象在現(xiàn)代漢語(yǔ)詞匯中比比皆是，例如“獅子”，“老虎”，“花兒”，“圖釘”，“水果”，“紅色”等，對(duì)應(yīng)“獅，虎，花，釘，果，紅”等有意義的單字。而如果把這些雙音節(jié)詞作為不可再切分的基本粒度詞的話，當(dāng)用戶搜“獅”的時(shí)候，即使文章中出現(xiàn)了詞匯“獅子”，也是無(wú)法被搜到的。

那么如果將這些基本粒度詞再進(jìn)一步切分呢？會(huì)切出“子，老，兒，圖，水，色”這樣存在轉(zhuǎn)義風(fēng)險(xiǎn)的詞匯（即這些單字對(duì)應(yīng)的含義并未體現(xiàn)在原文中），帶來(lái)很多“副作用”。例如用戶搜“老”的時(shí)候，當(dāng)然不希望把介紹“老虎”的文章給找出來(lái)。

與此同時(shí)，還有另一類的情況是有一些詞匯切為單字后，兩個(gè)單字都分別有表義能力，如“北歐”切為“北/歐”，對(duì)應(yīng)“北部，歐洲”兩方面的意思?！岸碚Z(yǔ)”切為“俄/語(yǔ)”，對(duì)應(yīng)“俄國(guó)，語(yǔ)言”，“苦笑”，切為“苦/笑”，對(duì)應(yīng)“痛苦，笑容”，以及“海洋”，“圖書”，“親友”，“時(shí)空”等都是可細(xì)分的。

還有第三類情況是，詞匯切分后單字都不能體現(xiàn)原詞含義，例如“自然”，如果切分為“自/然”，兩個(gè)字都沒有意義。類似的還有“蘿卜”，“點(diǎn)心”，“巧克力”等，外來(lái)語(yǔ)為多。

之所以前面提到如今中文語(yǔ)義分析時(shí)，基本粒度問(wèn)題是一個(gè)關(guān)鍵難題，原因是在現(xiàn)代漢語(yǔ)寫作時(shí)，既有現(xiàn)代雙音節(jié)/多音節(jié)詞匯，也夾雜很多源于古代漢語(yǔ)的單字，半文半白的現(xiàn)象很常見，這就一下給語(yǔ)義理解帶來(lái)很大的挑戰(zhàn)。不管是切分粒度的選擇，還是單字和詞匯間關(guān)聯(lián)關(guān)系的提取，標(biāo)題和正文語(yǔ)義的匹配，當(dāng)面臨文白間雜時(shí)都會(huì)遇到難關(guān)。常見的情況為：新聞標(biāo)題為了精煉，經(jīng)常喜歡采用源自古漢語(yǔ)習(xí)慣的單字簡(jiǎn)稱或縮略語(yǔ)。例如“中美援非模式差異帶來(lái)效果大相徑庭”，是選擇“中美/援非”這樣的基本切分粒度，還是按單字表義切分為“中/美/援/非”，對(duì)應(yīng)“中國(guó)美國(guó)援助非洲”這樣的內(nèi)容，是存在各自的利弊的。計(jì)算機(jī)提取文章關(guān)鍵詞時(shí)，還需要把“援—>援助，非-->非洲”還原為詞并建立關(guān)聯(lián)才能很好的解讀處理。

目前業(yè)界并沒有一個(gè)公認(rèn)的粒度標(biāo)準(zhǔn)，常見的幾個(gè)評(píng)測(cè)語(yǔ)料集合，如北大pku-test，微軟亞洲研究院msr-test，人民日?qǐng)?bào)標(biāo)注語(yǔ)料等，切分標(biāo)準(zhǔn)都有所不同。雖然一般普遍采用的雙音節(jié)詞為主的基本粒度標(biāo)準(zhǔn)，但是在應(yīng)用于搜索引擎、問(wèn)答對(duì)話時(shí)都會(huì)出現(xiàn)大量召回不足的問(wèn)題。而大量采用單字作為基本粒度詞又會(huì)引入有轉(zhuǎn)義風(fēng)險(xiǎn)的無(wú)效單字，并且還會(huì)出現(xiàn)運(yùn)算性能等隱患。

為了解決基本粒度詞的問(wèn)題，筆者曾在百度設(shè)計(jì)開發(fā)了亞粒度詞（subterm）補(bǔ)足的策略，緩解了召回不足的問(wèn)題，工業(yè)界還有一些其他的同義詞關(guān)聯(lián)等方法來(lái)應(yīng)對(duì)，但到目前為止詞匯粒度問(wèn)題仍然是困擾中文NLP的一個(gè)“慢性病”。近年來(lái)興起的BERT模型，利用大量文本進(jìn)行Transform預(yù)訓(xùn)練，填補(bǔ)各種粒度詞匯的語(yǔ)義信息，也是是一種緩解問(wèn)題的辦法。

英文因?yàn)椴淮嬖谇蟹謫?wèn)題，所以粒度問(wèn)題只需要考慮詞組（Phrase）切分的問(wèn)題。例如Harvard University，兩個(gè)單詞可以切為Phrase來(lái)表達(dá)一個(gè)具體機(jī)構(gòu)。相比中文的從細(xì)到粗的多粒度切分要簡(jiǎn)單很多。

六、句法結(jié)構(gòu)分析方法異同

自然語(yǔ)言處理在詞匯級(jí)別之上是語(yǔ)句級(jí)別，因?yàn)檎Z(yǔ)句是由一系列的詞匯排列組合后生成的。通過(guò)學(xué)習(xí)語(yǔ)法我們知道句子結(jié)構(gòu)是由“主謂賓定狀補(bǔ)”這樣的句法元素構(gòu)成的。例句“陳運(yùn)文去達(dá)觀數(shù)據(jù)上班，”主語(yǔ)是“陳運(yùn)文”，謂語(yǔ)“上班”，“達(dá)觀數(shù)據(jù)”是狀語(yǔ)，說(shuō)明動(dòng)作發(fā)生的地點(diǎn)。

在句子結(jié)構(gòu)方面，“英語(yǔ)重形合，漢語(yǔ)重義合”的特點(diǎn)體現(xiàn)的非常明顯。英語(yǔ)為了充分體現(xiàn)句子中的各種承接、轉(zhuǎn)折、從屬、并列等關(guān)系，不厭其煩的準(zhǔn)備了大量的連詞、助詞、介詞、冠詞等作為填充劑，來(lái)補(bǔ)充實(shí)詞之間的縫隙，構(gòu)成了很多從句、引導(dǎo)句。這些包含各類結(jié)構(gòu)的結(jié)構(gòu)，讓計(jì)算機(jī)來(lái)進(jìn)行語(yǔ)義角色標(biāo)注(SemanticRole Labeling, SRL)和語(yǔ)義依存分析(SemanticDependency Parsing, SDP)相對(duì)比較容易。

因?yàn)檫@些形式指示詞的存在，一個(gè)大家能很直觀發(fā)現(xiàn)的現(xiàn)象就是英文寫出來(lái)的句子往往都特別長(zhǎng)，整篇文章篇幅多。而同樣的意思用中文寫出來(lái)，篇幅往往只需要英文的一半甚至更少，漢語(yǔ)的句子非常精煉，尤其詩(shī)歌用短短幾個(gè)字能描述出豐富的內(nèi)涵——“孤帆遠(yuǎn)影碧空盡，唯見長(zhǎng)江天際流”，多么洗練優(yōu)美有意境。

從計(jì)算機(jī)的視角來(lái)看，恰恰因?yàn)闈h語(yǔ)講究意合而不重形式，句子結(jié)構(gòu)都比較松散，并沒有英文中那么多的虛詞作為實(shí)詞間的語(yǔ)義粘合劑，而是依賴詞匯前后順序關(guān)系，隱含表達(dá)出句子結(jié)構(gòu)，所以也給計(jì)算機(jī)處理帶來(lái)了挑戰(zhàn)。例如“中國(guó)人工智能創(chuàng)業(yè)企業(yè)獲獎(jiǎng)名單公布”這句話里，“中國(guó)，人工智能，創(chuàng)業(yè)，企業(yè)，獲獎(jiǎng)”這一連串的名詞均是主語(yǔ)“名單”的定語(yǔ)，如果用英語(yǔ)來(lái)寫這句話，一定會(huì)出現(xiàn)形如“the…of…that…which…”這樣一系列的輔助詞來(lái)把這些名詞粘接到一起，而中文并沒有它們。所以當(dāng)我們訓(xùn)練算法去識(shí)別句子主語(yǔ)和定語(yǔ)的時(shí)候，必須要小心的判斷哪個(gè)名詞才是句子的真正主語(yǔ)所在。漢語(yǔ)中句子的重心往往后移，相反英語(yǔ)中句子主要部分前移，所以通常生成句法依存樹時(shí)中文都會(huì)自動(dòng)選擇靠后的名詞。

除了句子內(nèi)部的輔助詞外，在句子間關(guān)系識(shí)別時(shí)，中英文都會(huì)通過(guò)特定標(biāo)識(shí)詞連接子句間關(guān)系，例如轉(zhuǎn)折關(guān)系（雖然…但是…），假設(shè)關(guān)系（如果….就…），遞進(jìn)關(guān)系（不僅…而且…），因果關(guān)系（因?yàn)椤?所以….），英文則是because…, Although…, If…, but also… 等。在中英文中這些標(biāo)識(shí)詞經(jīng)常會(huì)被自動(dòng)省略，例如“車站人流量大，大家要照看好自己的行李”。這里隱含的語(yǔ)義為“[因?yàn)閉車站人流量大，[所以]大家要照看好自己的行李”，[-]內(nèi)的詞匯被自動(dòng)省略了。區(qū)別在于英文一般會(huì)省略其中一個(gè)，例如“because…, so…，”這樣的句子會(huì)省掉其中一個(gè)，中文則既可以全省掉，也可以全寫出，實(shí)際進(jìn)行語(yǔ)義理解時(shí)需要額外補(bǔ)充處理。

目前句法依存分析在實(shí)際工程應(yīng)用中并沒有發(fā)揮很大作用，其原因一方面是上述一些現(xiàn)象導(dǎo)致了很難抽取得到特別準(zhǔn)確的句法關(guān)系結(jié)果，另一方面是大部分NLP應(yīng)用選擇了直接從詞匯或篇章級(jí)別來(lái)獲得結(jié)果，省去了中間句子這層。目前業(yè)界針對(duì)長(zhǎng)程的語(yǔ)義上下文關(guān)系，逐步放棄傳統(tǒng)的RST方法，更多傾向于利用記憶網(wǎng)絡(luò)（如bi-LSTM）等技術(shù)完成提煉。在聊天對(duì)話等應(yīng)用方面，用句法結(jié)構(gòu)來(lái)把握語(yǔ)義仍然是會(huì)有價(jià)值的。

七、中文英文指代消解處理

計(jì)算機(jī)進(jìn)行文章內(nèi)容解讀時(shí)，經(jīng)常碰到指代消解（ReferenceResolution）的問(wèn)題。不論是在書面文本中進(jìn)行長(zhǎng)文章解讀，還是在對(duì)話文本中回溯前文問(wèn)題，指代消解都起到非常關(guān)鍵的作用。計(jì)算機(jī)需要能像人類一樣建立起上下文間這些詞匯間的關(guān)聯(lián)關(guān)系，做到把概念串聯(lián)起來(lái)“讀懂”文章的意思。例如這句話：

“達(dá)觀數(shù)據(jù)順利入駐浦東軟件園，公司創(chuàng)始人陳運(yùn)文表示，達(dá)觀專注于為企業(yè)提供文本智能處理軟件系統(tǒng)和技術(shù)服務(wù)。他說(shuō)：‘文本理解任重道遠(yuǎn)’”

這句話里“公司”、“達(dá)觀”、“他”這些都是指代詞，“達(dá)觀數(shù)據(jù)”、“陳運(yùn)文”是真正的實(shí)體，稱為先行語(yǔ)（antecedent），而“公司”、“達(dá)觀”、“他”是回指語(yǔ)（或稱為照應(yīng)語(yǔ)，anaphor）?；刂刚Z(yǔ)有時(shí)是代詞（如“He”、“that”、“該公司”、“上述條款”、“前者”、“被告人”等等），有時(shí)是簡(jiǎn)稱或縮寫（如“達(dá)觀”、“CEO”、“NLP”、“WTO”），有時(shí)采用借代方法，如“白宮的態(tài)度非常堅(jiān)決”，“范冰冰們的納稅情況逐步被公布”，“白宮”=“美國(guó)總統(tǒng)”，“范冰冰們”=“大陸影視演員”。人類的閱讀能力非常強(qiáng)，各類指代的情況人都能通暢理解，但對(duì)計(jì)算機(jī)來(lái)說(shuō)并不簡(jiǎn)單。在NLP領(lǐng)域?yàn)榇藢ｉT存在技術(shù)分支稱為指代消解。指代消解通常又細(xì)分為回指、預(yù)指、共指等情形，實(shí)踐中通常稱為共指消解（CoreferenceResolution）

英文中常見指代語(yǔ)是專名首字母縮寫，也是表音文字特別之處。英文中專有名詞往往由多個(gè)單詞構(gòu)成，篇幅長(zhǎng)，從中抽取字母構(gòu)成各類縮寫約定非常常見?？s寫一部分是行業(yè)內(nèi)通用的（例如計(jì)算機(jī)領(lǐng)域常見的CV，DNS，CPU，NLP等），另一些則是在文中第一次出現(xiàn)專名時(shí)臨時(shí)約定的。例如一篇行業(yè)分析報(bào)告里的句子：“High Carbon Steel (HCS) is typically producedas low carbon steel. HCS export volume in YTD 2017 reached to 6.9 millionmetric tons(MMT).”。這里臨時(shí)性縮寫（HCS，YTD，MMT等）大量出現(xiàn)。這些回指語(yǔ)是一個(gè)新的獨(dú)立單詞（例如例子中的HCS），和原詞匯的關(guān)聯(lián)處理通過(guò)共指消解來(lái)完成。另一類回指語(yǔ)是“it、which、where、there、that”等這樣的指代詞，要通過(guò)上下文依賴關(guān)系去尋找實(shí)體。

中文的縮寫通常是從實(shí)體中抽取若干漢字新構(gòu)成的詞，例如北京大學(xué)簡(jiǎn)稱北大，復(fù)旦大學(xué)簡(jiǎn)稱復(fù)旦，XX銀行，通常簡(jiǎn)寫為X行，XX局長(zhǎng)，簡(jiǎn)寫為X局。（陳運(yùn)文）因?yàn)闈h字里單字的表義能力比英文中單獨(dú)的字母要強(qiáng)的多。我們知道常用漢字有5000多個(gè)，而英文字母只有26個(gè)，所以中文縮寫詞更容易能讓人“望文生義”，讀懂含義。例如“高碳鋼”這個(gè)縮寫即使是外行也能猜出意思，但是HCS怕是很難直接讓人明白是啥，即漢語(yǔ)在縮略語(yǔ)的可讀性上優(yōu)于英文。

正因?yàn)橛⑽目s略語(yǔ)可讀性弱，且重復(fù)歧義多，所以為了讓人能讀懂，英文里通常都會(huì)清楚標(biāo)出先行語(yǔ)和縮寫規(guī)則。而漢語(yǔ)里除非嚴(yán)格的法律文書會(huì)前置術(shù)語(yǔ)表，一般文本里用縮略語(yǔ)時(shí)比較隨意，很多時(shí)候約定俗成，并不“提前打招呼”。例如新聞：“北大學(xué)生在剛剛結(jié)束的奧數(shù)競(jìng)賽中成功摘得兩枚金牌”。如果按縮略語(yǔ)習(xí)慣，應(yīng)該寫為：“北京大學(xué)（以下簡(jiǎn)稱北大）學(xué)生在剛剛結(jié)束的國(guó)際奧林匹克數(shù)學(xué)邀請(qǐng)賽（以下簡(jiǎn)稱奧數(shù)）中成功摘得兩枚金牌?！?/p>

在共指消解中還會(huì)遇到的一類問(wèn)題是因?yàn)檎Z(yǔ)法結(jié)構(gòu)導(dǎo)致的指向歧義的問(wèn)題。例如“這張照片里有陳運(yùn)文和高翔的同事”、“那邊坐著三個(gè)公司的工程師”，這在前面句法結(jié)構(gòu)解析時(shí)提到過(guò)，也同樣會(huì)影響中英文在處理共指消解時(shí)的結(jié)果。

在實(shí)際工程應(yīng)用中，共指消解最常用到的場(chǎng)景是對(duì)人名、機(jī)構(gòu)名、地點(diǎn)、條款、具體事件、關(guān)系類型等要素的指代處理。在超長(zhǎng)文書（如證券行業(yè)的上市公司重組公告、招股說(shuō)明書等）處理方面該技術(shù)也起了很大作用。日常中文的共指消解存在一定的行文規(guī)律，通過(guò)預(yù)先挖掘簡(jiǎn)寫和指代詞表導(dǎo)入算法中可顯著提升效果。業(yè)界常見的共指消解方法既有傳統(tǒng)的規(guī)則啟發(fā)法，也有經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)、聚類算法、概率圖模型等，此外深度強(qiáng)化學(xué)習(xí)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)等新的Meural Mention-ranking方法也有良好的效果。

八、英漢語(yǔ)詞匯間關(guān)聯(lián)關(guān)系挖掘

詞匯間關(guān)系是構(gòu)建語(yǔ)義網(wǎng)絡(luò)的一項(xiàng)基礎(chǔ)技術(shù)，我們知道同義詞、近義詞、相關(guān)詞是特別常見的詞匯關(guān)系，此外詞匯的上下位（例如在生物知識(shí)網(wǎng)絡(luò)中Sparrow屬于Bird，Shanghai屬于China）和詞向量等在NLP處理中都很重要。和英文單詞相比，漢字的數(shù)量少得多，常用漢字?jǐn)?shù)才2000-3000個(gè)，其中最常用的1000個(gè)漢字已經(jīng)能覆蓋92%的書面資料了。這1000個(gè)漢字中去掉偏旁部首類似的字，獨(dú)立語(yǔ)素更是不到500個(gè)。在表述事物時(shí)漢語(yǔ)中采用字組合的方式，可以非常方便的理解詞義并且研讀出詞匯之間的關(guān)聯(lián)關(guān)系。

而英文單詞動(dòng)輒2萬(wàn)-3萬(wàn)個(gè)（美國(guó)成年人平均單詞量），而且意思相似的詞匯間的字母構(gòu)成差異很大，所以很多情況下如果沒見過(guò)某個(gè)單詞，很難像中文一樣大致能猜出詞匯所指的意思。請(qǐng)大家不查詞典猜猜limousine、roadster、saloon分別是什么意思，再看看對(duì)應(yīng)的中文意思，就能理解為什么會(huì)有這么多英文單詞了。

我們?cè)儆孟旅娴倪@樣一些例子給大家直觀的展示英文在表述相近事物時(shí)的差異性：Chick, Rooster, Hen, Egg彼此之間從字母分布上來(lái)看很難看出有什么關(guān)聯(lián)，但是換成中文，對(duì)應(yīng)的是小雞、公雞、母雞、雞蛋，很容易就能發(fā)現(xiàn)其中的規(guī)律。中文詞匯是由有意思的單字組合構(gòu)成的，因此通過(guò)字就很容易觀察和理解詞匯間的關(guān)系。類似的，小牛，公牛，母牛的英文單詞為Calf，Ox，Cow，甚至公牛在英文中還區(qū)分閹割后的steer和沒被閹割的bull。因此漢語(yǔ)NLP中只需要根據(jù)動(dòng)物名“雞”、“牛”、“豬”、“鴨”加上相應(yīng)的形容詞就可以知道意思了，而在英文中由于單詞的差異無(wú)法直接通過(guò)單詞的語(yǔ)素關(guān)系直接計(jì)算獲得，所以為驗(yàn)證語(yǔ)義關(guān)系時(shí)略為復(fù)雜一些。

知識(shí)圖譜（Knowledge Graph）是理解這些詞匯間關(guān)系一種好辦法。詞匯（或稱為實(shí)體Entity）間的關(guān)系通過(guò)挖掘大量文本、Wiki等來(lái)構(gòu)建。英文詞匯間的關(guān)系不像中文這樣能讓人能觀察到，因此構(gòu)建知識(shí)圖譜對(duì)英文來(lái)說(shuō)非常有價(jià)值。例如spaghetti，penne，capellini，fusilli，lasagne，macaroni這些實(shí)體，通過(guò)構(gòu)建出知識(shí)圖譜，才能讓計(jì)算機(jī)知道他們都屬于Pasta（意大利面）下面的某個(gè)品類的名字。近幾年興起的基于Skip-gram或CBOW模型的Word2Vec方法一經(jīng)提出就得到了非常廣泛的應(yīng)用，在實(shí)踐中好評(píng)如潮，就是因?yàn)閑mbedding技術(shù)恰好彌補(bǔ)了英文中詞匯之間關(guān)系不直觀的問(wèn)題，對(duì)提高計(jì)算機(jī)英文語(yǔ)義理解的能力起到了很好的幫助作用。類似的，中文詞向量、預(yù)訓(xùn)練等技術(shù)構(gòu)建好后，也帶來(lái)了整體語(yǔ)義分析效果的大幅度進(jìn)步。漢語(yǔ)和英語(yǔ)在詞匯間關(guān)系挖掘這個(gè)方面，目前整體的算法都是相同的，區(qū)別在于漢語(yǔ)的詞匯間關(guān)系可以更加顯式的被人觀察到。畢竟，讓人來(lái)判斷hepatitis和pneumonia，Grape和Raisin，January和March，Monday和Thursday間的關(guān)系，相比分析肝炎和肺炎，葡萄和葡萄干，一月和三月，周一和周三之間的關(guān)系，還是要困難很多的，對(duì)計(jì)算機(jī)來(lái)說(shuō)也是如此。

九、中英文省略和內(nèi)容補(bǔ)足的處理

語(yǔ)境是一個(gè)微妙的概念，人類在進(jìn)行文字閱讀時(shí)，不只是看到文字內(nèi)容本身，而是不自覺的會(huì)將語(yǔ)境相關(guān)的詞匯自動(dòng)補(bǔ)充進(jìn)入字里行間，輔助語(yǔ)義理解。反之，人類在文字寫作時(shí)，會(huì)將一些重復(fù)內(nèi)容省略掉，主語(yǔ)或賓語(yǔ)是最常被省略的對(duì)象。例如摘錄自合同文書的一段文字“本協(xié)議中約定了大橋建設(shè)工程的具體內(nèi)容，其中乙方負(fù)責(zé)承接，丙方負(fù)責(zé)監(jiān)督，以確保順利交付”。如果讓計(jì)算機(jī)來(lái)解讀，需要把指代語(yǔ)補(bǔ)齊（用[-]表示）為：“本協(xié)議中約定了大橋建設(shè)工程的具體內(nèi)容，乙方負(fù)責(zé)承接[該工程]，丙方負(fù)責(zé)監(jiān)督[乙方的工作]，確保[該工程]順利交付”。書面文本還相對(duì)規(guī)范，如果是日常對(duì)話的口語(yǔ)文本，那么省略更加是無(wú)處不在，以一個(gè)電商客服問(wèn)答為例：“這雙賣多少？”，“58”?！吧冱c(diǎn)？”，“最低了”。“行嗎？”，“做不了哎”。如果補(bǔ)齊省略語(yǔ)，應(yīng)該為：“這雙[鞋子的價(jià)錢]賣多少？”“[價(jià)錢]少點(diǎn)[行嗎]？”“[價(jià)錢少點(diǎn)]行嗎？”

除了主謂語(yǔ)省略，一些非常重要的連詞也經(jīng)常被省略，例如“因?yàn)椤浴?，雖然…但是…，盡管…然而…”，例如：“開車不注意，親人淚兩行”，“股市有風(fēng)險(xiǎn)，投資需謹(jǐn)慎”，補(bǔ)充邏輯連詞后為“[如果]開車不注意，[那么]親人淚兩行”，“[因?yàn)閉股市有風(fēng)險(xiǎn)，[所以]投資需謹(jǐn)慎”。

英文的省略習(xí)慣也存在（全世界人民都愛偷懶），例如省略主語(yǔ)it：“Looks as if it will snow”，省略謂語(yǔ)comes：“Who next?”，省略賓語(yǔ)thedishes:“Let \' s do the dishes. I \' ll wash and you \' ll dry.”,省略連詞that“It \' s a pity[that] she \' s leaving”。當(dāng)然英文中還有一類約定俗成的獨(dú)特簡(jiǎn)稱（很多來(lái)自拉丁語(yǔ)）e.g., etc., al., i.e., viz.等。

區(qū)別在于英文書面文本中省略出現(xiàn)的較少，同時(shí)語(yǔ)義連接詞的省略有固定規(guī)范，例如“because…so…”要求只省其中一個(gè)。英文行文時(shí)單詞使用量比中文多，同樣的內(nèi)容英文篇幅通常是中文的200%左右，也即中文1頁(yè)紙寫完的內(nèi)容，如果用英文寫要2頁(yè)甚至更多。如果對(duì)比惜字如金的文言文，就更濃縮了。如“民為貴，社稷次之，君為輕”，10個(gè)字如果改用英文寫，沒有幾十個(gè)單詞怕是說(shuō)不清楚。那么放到省略環(huán)境下看時(shí)，漢語(yǔ)就比較吃虧了，因?yàn)楸緛?lái)就濃縮，再加上語(yǔ)法約束不嚴(yán)導(dǎo)致時(shí)不時(shí)省略，對(duì)信息的損失比較大。從10個(gè)漢字的短句中省略2個(gè)字，和從一段20個(gè)單詞的英文句子中省略2個(gè)單詞，前者對(duì)計(jì)算機(jī)處理來(lái)說(shuō)要費(fèi)力不少。達(dá)觀在進(jìn)行文本應(yīng)用實(shí)踐中，也在想辦法主動(dòng)“腦補(bǔ)”出這些省略語(yǔ)，加深對(duì)文字理解的深度（陳運(yùn)文）。近年興起的文本預(yù)訓(xùn)練（例如大名鼎鼎的BERT，MT-DNN等）技術(shù)通過(guò)海量文本的預(yù)訓(xùn)練，對(duì)文本進(jìn)行表示學(xué)習(xí)，運(yùn)用transform編碼器等把這些詞句中的隱語(yǔ)義信息嵌入（Embedding），結(jié)合Attention機(jī)制，填補(bǔ)省略內(nèi)容，在自然語(yǔ)言理解（NLU）的很多應(yīng)用（例如GLUE benchmark、斯坦福閱讀推理SQuAD、SNLI、MultiNLI、SciTail）能大幅度提升效果。

十、歧義問(wèn)題與子串轉(zhuǎn)義處理

雖然大部分NLP的算法都具備語(yǔ)言無(wú)關(guān)性（Language independent），但是在具體工程任務(wù)中還是有很多語(yǔ)言相關(guān)的問(wèn)題。在漢語(yǔ)中經(jīng)常發(fā)生的一類情況是文字子串局部轉(zhuǎn)義的問(wèn)題。這個(gè)問(wèn)題因?yàn)槭菨h語(yǔ)所獨(dú)有的，在英文中幾乎不曾出現(xiàn)，所以在自然語(yǔ)言處理的學(xué)術(shù)界并不作為主流的課題被研究（因?yàn)閷W(xué)術(shù)界主流還是傾向于研究語(yǔ)言無(wú)關(guān)性的課題和方法）。但是筆者在多年從事NLP以及搜索和推薦系統(tǒng)技術(shù)研發(fā)工作時(shí)，深深的感受到子串轉(zhuǎn)義是一個(gè)非常困難卻也非常重要的漢語(yǔ)NLP課題。對(duì)這個(gè)課題處理水平的高低直接影響著大量的實(shí)際工程效果。下面具體闡述下該問(wèn)題的定義。

前文我曾提到過(guò)漢語(yǔ)中單字不多（3000個(gè)漢字可以覆蓋99%的中文文本了），所以漢語(yǔ)里的詞匯大多是由幾個(gè)漢字順序組合來(lái)形成的。這里潛伏著一個(gè)巨大的隱患是，因?yàn)樽值呐帕薪M合形式很多，所以會(huì)導(dǎo)致局部出現(xiàn)的一些組合所構(gòu)成的意思，和整體詞的意思不同，出現(xiàn)歧義；或者說(shuō)一個(gè)詞匯中的子串和整個(gè)詞的意思會(huì)出現(xiàn)很大的差異，因而也稱為子串轉(zhuǎn)義問(wèn)題。這里我用數(shù)學(xué)形式化的方法再來(lái)表述下：假設(shè)A、B、C分別表示三個(gè)漢字，那么子串轉(zhuǎn)義就是指詞匯ABC的含義，和AB或者BC的含義完全不相同。當(dāng)然4個(gè)漢字或者更長(zhǎng)的短串也類似。例如ABCD和ABC或BCD或AB、BC、CD的意思可能會(huì)完全不同，這種意思“突變”的情況稱為子串轉(zhuǎn)義。

例如：“周杰倫”和其中的前兩個(gè)字構(gòu)成的詞“周杰”顯然指的是完全不同的兩個(gè)人，“蕁麻疹”和“麻疹”是兩種病，“亞健康”和“健康”的意思截然相反。這會(huì)給計(jì)算機(jī)處理帶來(lái)很多困難，尤其在搜索引擎中，當(dāng)用戶搜“周杰”或“麻疹”或“健康”時(shí)，如果結(jié)果出“周杰倫上海粉絲見面會(huì)”、或“蕁麻疹治療方法”、“導(dǎo)致白領(lǐng)亞健康的主要原因”都是不太好的結(jié)果。我們?cè)谒阉饕嬷杏龅降拇罅拷Y(jié)果不相關(guān)的問(wèn)題，很多都是由于漢語(yǔ)中局部轉(zhuǎn)義現(xiàn)象導(dǎo)致的。

同樣，在進(jìn)行關(guān)鍵詞提取、文本相似度計(jì)算、相關(guān)文章推薦等場(chǎng)景的時(shí)候，這些局部轉(zhuǎn)義的問(wèn)題同樣也會(huì)帶來(lái)很大麻煩。例如“周杰倫上海粉絲見面會(huì)”和“周杰倫現(xiàn)身上海電影節(jié)”兩篇文章的內(nèi)容相關(guān)度，顯然遠(yuǎn)大于“周杰上海粉絲見面會(huì)”。

很多朋友可能會(huì)覺得這些都可以視為命名實(shí)體識(shí)別（NER）問(wèn)題，將這些專名直接切為一個(gè)整體，就能解決上述局部轉(zhuǎn)義的問(wèn)題了。其實(shí)沒這么簡(jiǎn)單，因?yàn)槠鋵?shí)大量的中文詞匯里，局部詞組合成的意思和整體詞匯是存在關(guān)聯(lián)的，如果不切開會(huì)帶來(lái)召回不足的問(wèn)題。例如“消防隊(duì)”和“消防”，“上班族”和“上班”，“315晚會(huì)”和“315”等，甚至前面例子里“周杰倫”和“杰倫”也有緊密的語(yǔ)義關(guān)聯(lián)。當(dāng)用戶搜索詞是“消防”、“杰倫”、“315”等query時(shí)，相應(yīng)的整體詞“周杰倫”、“315晚會(huì)”等所在的文章也理應(yīng)被搜出來(lái)。因?yàn)槊髅魑恼吕镉羞@個(gè)詞且意思相關(guān)，如果沒被找出來(lái)是不能被用戶接受的。通過(guò)這些例子可見正確處理漢語(yǔ)的字詞組合的確是一件很棘手的課題。再舉個(gè)例子：“不可以”這個(gè)常用詞，把“不可”單獨(dú)作為子串提取出來(lái)是非常有必要的，因?yàn)楹驮~意思相同。但是把“可以”單獨(dú)提取出來(lái)就很危險(xiǎn)，因?yàn)楹驮~意思相反，單獨(dú)進(jìn)行搜索匹配會(huì)導(dǎo)致歧義。再如我們可以把“阿里巴巴”里的子串“阿里”切出來(lái)，因?yàn)楹芏鄷r(shí)候用戶稱呼“阿里”就是指“阿里巴巴”，但是把“里巴”或“巴巴”切出來(lái)則是不合適的。

究竟哪些子串詞匯和原詞意思相同相近？哪些又會(huì)發(fā)生轉(zhuǎn)義？這需要計(jì)算機(jī)更智能的進(jìn)行判斷才行，目前我們已經(jīng)想了一些方法去解決，例如通過(guò)字的共現(xiàn)頻率等進(jìn)行處理，但離徹底解決漢語(yǔ)里子串轉(zhuǎn)義的問(wèn)題還有距離。

除了子串轉(zhuǎn)義外，漢語(yǔ)中其他歧義的情況也是比比皆是，例如“我去上課了”、“她看病去了”（主動(dòng)和被動(dòng)不明，導(dǎo)致無(wú)法區(qū)分老師還是學(xué)生，病人還是醫(yī)生）、“要多少有多少”（無(wú)法區(qū)分核心語(yǔ)義是多還是少）、“咬死了獵人的狗”、“喜歡山區(qū)的孩子”（無(wú)法區(qū)分狗或孩子是主語(yǔ)還是賓語(yǔ)）。因?yàn)橹形牟皇强吭~匯的變形變換來(lái)體現(xiàn)修飾、主被動(dòng)等關(guān)系，而是靠順序組合來(lái)體現(xiàn)，因此在中文NLP的各個(gè)環(huán)節(jié)，從分詞、詞性、句法、指代，到局部子串處理等，都會(huì)帶來(lái)歧義理解的問(wèn)題。

英文中也存在歧義問(wèn)題，最常見的情況是英文多義詞導(dǎo)致的。例如“He went to the bank”既可以理解為“他去了銀行”，也可以理解為“他去了河岸邊”，“The doctor saw the Indian dance”，單詞Indian 既可以視為形容詞“印第安人的舞蹈”，也可以是名詞“印第安人+跳舞”，還有英文中不定式導(dǎo)致的歧義，如“Not many books filled the shelves”，可以理解為“書架上沒有幾本書”或者“要放滿那些書架不用很多書”。

其實(shí)所有的人類語(yǔ)言都存在著各式各樣的歧義的問(wèn)題，我們看到各個(gè)民族所流傳的笑話里很多都是拿這些歧義語(yǔ)義來(lái)打趣的。不同語(yǔ)言處理歧義的具體方法不同，但整體思路都是將歧義句放到句子上下文里來(lái)解讀，引入更多語(yǔ)境信息來(lái)正確獲得意思。

可以說(shuō)計(jì)算機(jī)進(jìn)行語(yǔ)義理解的結(jié)果，某種程度上就是在和各種各樣的歧義做斗爭(zhēng)的過(guò)程。打個(gè)比方，自然語(yǔ)言處理的過(guò)程就像是讓計(jì)算機(jī)拿著用上下文語(yǔ)境拼湊出的一張殘缺的地圖，撥開云遮霧繞的文字迷霧，越過(guò)歧義所埋下的一個(gè)個(gè)大坑，逐步接近語(yǔ)義真相的過(guò)程。

中英文NLP差異總結(jié)

中文和英文這兩類全球使用人數(shù)最多，影響力最大的語(yǔ)言，有各自鮮明的語(yǔ)言特色，在計(jì)算機(jī)進(jìn)行自然語(yǔ)言處理領(lǐng)域也有各自獨(dú)樹一幟的地方。本文從語(yǔ)言特點(diǎn)的角度出發(fā)，從10個(gè)方面分析了中英文在自然語(yǔ)言處理上的差異。隨著全球化的發(fā)展，中英文在不斷相互影響，相互滲透。例如中文中有大量的外來(lái)語(yǔ)來(lái)自英文，沙發(fā)、咖啡、巧克力、牛頓等這些頻繁出現(xiàn)的詞匯都源于英文，還有很多專業(yè)術(shù)語(yǔ)如NGO、WTO、CFO等，甚至NLP一詞本身也是源自英文。英文也在受中文影響，每年都有近千條外來(lái)詞匯新收錄入英文詞典，如Kungfu（功夫），tofu（豆腐）等。

無(wú)論是中英文各自的NLP應(yīng)用，還是兩種語(yǔ)言之間的相互翻譯，都面臨著非常巨大的技術(shù)挑戰(zhàn)，因?yàn)檎Z(yǔ)言的產(chǎn)生和發(fā)展受人類日常交流和使用的影響，雖然有一定的語(yǔ)法規(guī)律，但并不完全嚴(yán)格的，另外語(yǔ)義理解還受上下文語(yǔ)境、以及領(lǐng)域知識(shí)的影響非常大，這些都給計(jì)算機(jī)處理帶來(lái)了很多困難。

雖然整體上NLP的算法都是語(yǔ)言無(wú)關(guān)的，但是在細(xì)節(jié)處理上還是存在很多差異，尤其在實(shí)際工程應(yīng)用中為了達(dá)到盡可能好的效果，往往要深入探究語(yǔ)言的特點(diǎn)。因此本文從兩種語(yǔ)言的特點(diǎn)出發(fā)，結(jié)合作者在計(jì)算機(jī)文本處理方面的從業(yè)經(jīng)驗(yàn)，分析了兩者NLP的異同點(diǎn)，雖掛一漏萬(wàn)，但期望對(duì)各位讀者有所啟發(fā)，也期待未來(lái)中英文的語(yǔ)義理解技術(shù)都不斷創(chuàng)造新的突破。（陳運(yùn)文達(dá)觀數(shù)據(jù)）

達(dá)觀數(shù)據(jù)是一家專注于文本智能處理技術(shù)的國(guó)家高新技術(shù)企業(yè)，獲得2018年度中國(guó)人工智能領(lǐng)域最高獎(jiǎng)項(xiàng) “吳文俊人工智能科技獎(jiǎng)”，也是本年度上海市唯一獲獎(jiǎng)企業(yè)。達(dá)觀數(shù)據(jù)利用先進(jìn)的自然語(yǔ)言理解、自然語(yǔ)言生成、知識(shí)圖譜等技術(shù)，為大型企業(yè)和政府機(jī)構(gòu)提供文本自動(dòng)抽取、審核、糾錯(cuò)、搜索、推薦、寫作等智能軟件系統(tǒng)，讓計(jì)算機(jī)代替人工完成業(yè)務(wù)流程自動(dòng)化，大幅度提高企業(yè)效率。

以上就是關(guān)于銷售pos機(jī)口語(yǔ),中文和英文語(yǔ)言差異和計(jì)算機(jī)處理的區(qū)別的知識(shí)，后面我們會(huì)繼續(xù)為大家整理關(guān)于銷售pos機(jī)口語(yǔ)的知識(shí)，希望能夠幫助到大家！

轉(zhuǎn)發(fā)請(qǐng)帶上網(wǎng)址：http://www.rcqwhg.com/newsone/72602.html

上一篇：pos機(jī)行情分析,不到一個(gè)月流水竟超千萬(wàn)元下一篇：青海手持pos機(jī),你確定古代青海人過(guò)冬都這么奢華

免费中文字幕在线观看,不卡日韩在线精品二区,精品欧美在线观看视频,国产精品亚洲专区一区

銷售pos機(jī)口語(yǔ),中文和英文語(yǔ)言差異和計(jì)算機(jī)處理的區(qū)別

本文目錄一覽：

銷售pos機(jī)口語(yǔ)

你可能會(huì)喜歡：