新聞動態

人工智能簡介之NLP

2025 年 1 月 10 日

AI(Artificial Intelligence,人工智能)技術的發展源於20世紀50年代科學家對機器模擬人類智能的探索。近年來,得益於信息技術、計算機硬件和算法的進步,AI已從早期符號處理髮展至機器學習和深度學習,廣泛應用於醫療、交通等領域,極大推動了社會進步。隨着ChatGPT聊天機器人的驚艷亮相,AI技術在NLP(Natural Language Processing,自然語言處理)方面取得了突破性的進展,讓人們看到了AI在理解和生成人類語言方面的巨大潛力,現在,讓我們共同開啟NLP探索之旅。

什麼是

NLP?

自然語言是人類在日常生活中自然演化出的語言系統,用以表達人的思維和交流,二進制代碼是計算機能夠直接處理的語言,編程語言和通信協議這類人工語言也能被計算機高效處理。NLP旨在跨越自然語言與人工語言之間的巨大差異,探索實現人與計算機之間用自然語言進行有效交流的理論與方法,是計算機科學領域和人工智能領域的重要研究方向之一。

NLP任務

有哪些分類?

NLP
任務

含義
子任務
詞法
分析

對自然語言進行詞彙層面的分析,是NLP基礎性工作

分詞、新詞發現、形態分析、詞性標註、拼寫校正
句子
分析
對自然語言進行句子層面的分析,包括句法分析和其他句子級別的分析任務
組塊分析、超級標籤標註、成分句法分析、依存句法分析、語言模型、語種識別、句子邊界檢測
語義
分析
對給定文本進行分析和理解,形成能夠表達語義的形式化表示或分布式表示
詞義消歧、語義角色標註、抽象語義表示分析、一階謂詞邏輯演算、框架語義分析、詞彙/句子/段落的向量化表示
信息
抽取
從無結構文本中抽取結構化的信息
命名實體識別、實體消歧、術語抽取、共指消解、關係抽取、事件抽取、情感分析、意圖識別、槽位填充
頂層
任務
直接面向普通用戶,提供自然語言處理產品服務的系統級任務,會用到多個層面的自然語言處理技術
機器翻譯、文本摘要、閱讀理解、自動文章分級、問答系統、對話系統、智能生成系統

其中,語言模型(Language Model,LM)目標就是建模自然語言的概率分布。詞彙表V上的語言模型可以形式化地構建為詞序列作為一個句子出現的概率,但是這樣的計算複雜度太大,可通過將聯合概率轉換為條件概率的乘積,最大化下一個詞出現的條件概率來建立語言模型。

NLP的發展歷程

是什麼?

1.早期探索(1950s-1970s):

NLP的早期研究主要基於規則,例如ELIZA,這些系統通過模擬對話來模擬人類交流,但規則的覆蓋度有限,難以處理複雜的語言現象。

2.統計學習方法(1980s-1990s):

隨着計算能力的提升,統計學習方法開始流行,如隱馬爾可夫模型(HMM)和循環神經網絡(RNN),在處理序列數據和捕捉時間依賴關係方面展現了強大能力。

3.深度學習時代(2010s-2017):

深度學習的出現為NLP帶來了革命性的變化,以編碼器-解碼器(Encoder-Decoder)、門控循環單元(GRU)、ELMO(Embeddings from Language Models)為代表的技術,使得模型具備了處理多義詞、同義詞等複雜語言特性,捕獲句子複雜依賴關係的能力,但面對下游任務時仍然需要遷移訓練。

4.大模型時代(2017-至今):

在2017年,谷歌提出了Transformer模型,這一模型徹底改變了NLP的研究方法。Transformer採用自注意力機制來處理序列數據,既實現了並行計算,從而大幅提高了模型的訓練速度;又極大擴展了模型容量,需要海量的文本數據做訓練。最終,大語言模型能夠以自然語言的形式接收並高質量地回答各種下游任務,其中以BERT系列、GPT系列和LLAMA系列等大模型為典型代表。

主要

應用

按照實現方式不同,可以把傳統NLP落地應用分為對話機器人(語音語義問答)、閱讀理解、智能搜索和機器翻譯四種。大模型的出現和普及極大地擴展了NLP的應用範圍,推動了許多創新領域的發展,如高質量文本創作、多輪流暢交互、多模態交互、輔助科研、專業情感和心理分析、輔助編程、個性化學習等。

目前,各個行業的垂直領域大模型已在業務中逐漸嶄露頭角,並呈現出迅速發展的勢頭,握奇憑藉著深厚的行業和技術積累,順應時代發展趨勢,正在加緊開發密碼大模型、智能卡大模型、物聯網大模型等相關應用,與重點科研院所合作共同研究基礎模型問題,探索大模型時代數字信任構建的新形態。