top of page

專題介紹

本研究旨在將維度情感分析(Dimensional Sentiment Analysis, DSA)框架應用於日語財務報告,以更細緻地捕捉財務文本中的情感差異和強度 。

一、研究背景與 DimABSA 詳細說明

傳統研究的限制

財務報告中的語氣往往細緻且複雜,例如:

  • 「謹慎樂觀」

  • 「有限改善」

  • 「稍有疑慮」

傳統三分類(正/負/中立)無法完整捕捉這些情感差異。

DimABSA:維度情感分析框架

 

為了解決這些課題,本研究採用維度基於方面的情感分析 (DimABSA) ,將情感表達於連續的二維空間中 。

這個框架基於心理學的情感效價-喚醒度 (Valence-Arousal, VA) 模型 :

  • 情感效價 (Valence, V): 從負面到正面的程度(範圍 1.00 至 9.00) 。

  • 喚醒度 (Arousal, A): 情感的強度或興奮度(範圍 1.00: 平靜/低喚醒 至 9.00: 興奮/高喚醒) 。

DimABSA 能定量捕捉情感的細微差異和強度,特別適用於情感表達細微而複雜的財務領域 。

スクリーンショット 2025-11-17 191007.png

二、研究目的

本研究的三大目標:

  1. 專屬資料集建構:建立針對日語財務報告的 DimABSA 資料集 (訓練用 1,024 句,開發用 200 句)

  2. 多模型 VA 預測:使用多種預訓練語言模型(含日語專用及多語言模型)進行情感效價 (V) 和喚醒度 (A) 的連續值預測

  3. 性能比較與分析:以均方根誤差 (RMSE) 和皮爾森相關係數 (PCC) 進行定量評估,驗證維度情感分析在財務領域的有效性

三、研究方法

資料集建構

  • 訓練資料 1024 句:以 chABSA 財務文本為基礎重新標註

  • 開發資料 200 句:從 EDINET 財務報告擷取句子

  • 標註內容:為每個 Aspect 分別賦予 Valence(1–9)、Arousal(1–9)

  • 品質管理: 配置 4 名標註者,計算標註一致率,並選擇 F1 分數最高的配對進行最終標註

​模型訓練

使用四種預訓練語言模型

  1. cl-tohoku/bert-base-japanese-whole-word-masking

  2. nlp-waseda/roberta-base-japanese

  3. bert-base-multilingual-cased

  4. rinna/japanese-roberta-base

統一訓練設定:lr = 2e-5、epochs = 5

評估指標

RMSE_VA: 衡量預測值與實際值之間的平均誤差。數值越小,準確度越高。

PCC_V / PCC_A: 衡量預測值與實際值之間的線性相關強度。數值越接近 1.0,表示預測趨勢越一致 。

image.png

四、實驗結果

image.png
  • 最佳預測準確度 (RMSE): bert-base-multilingual-cased 錄得最低 RMSE (1.5519) ,顯示其跨語言遷移學習能力可能對財務文本的理解有所助益 。

  • 最佳趨勢捕捉 (PCC): 在情感效價 (V) 預測方面,rinna/japanese-roberta-base 表現相對最佳 (PCC_V = 0.1192) ;而在喚醒度 (A) 預測方面,cl-tohoku/bert-base-japanese-whole-word-masking 表現最佳 (PCC_A = 0.1530) 。

  • 普遍偏低的相關性: 所有模型的 PCC 值均低於 0.2 ,屬於「極弱相關」範疇 。這意味著模型預測的趨勢與實際值趨勢未能充分一致,顯示目前的模型架構和訓練方法仍有很大的改善空間 。

五、結論與貢獻

研究成果與結論

本研究成功建構了日語財務領域專用的 DimABSA 資料集 ,並系統性地比較了四種預訓練語言模型在 DimASR 任務上的性能 。

  • 可行性證實: 證實了將連續值維度情感分析應用於財務文本的可行性 。

  • 多維度考量: 發現 RMSE 最低(準確度高)的模型與 PCC 最高(趨勢捕捉優異)的模型並不一致 ,揭示了評估維度情感分析模型時需要多角度考量的重要性 。

貢獻與未來展望

儘管目前所有模型的相關性指標(PCC)仍有很大改善空間 ,本研究已為日語財務情感分析領域提供了重要的初步基準線與可複製的評估框架 。

未來研究方向將聚焦於:

  • 資料擴充與品質提升: 增加標註資料量,並改善 VA 標註的一致性 。

  • 模型架構優化: 探索更大規模的語言模型(如 Large 規模或 LLM) 、領域特化模型 ,或針對 VA 預測設計專門的神經網路架構 。

  • 實務應用: 將維度情感分析整合至投資決策支援系統或市場情緒分析工具中,為財務資訊處理提供更細緻的情感洞察 。

總結

  本研究透過建構 1,224 筆日語財務報告專用資料集,並系統性比較 4 種預訓練 語言模型,為日語財務領域的維度情感分析研究提供了重要的初步成果。 實驗結果顯示,不同模型在 DimASR 任務上展現出各自的特性:bert-basemultilingual-cased 在預測準確度(RMSE)上表現最佳,而 rinna/japaneseroberta-base 在趨勢捕捉(PCC_V)上較為優異。這一發現揭示了評估維度情感分 析模型時需要多角度考量的重要性——單一指標無法全面反映模型性能。 儘管受限於資料規模、GPU 運算資源以及財務文本的固有複雜性,目前所有模型的 相關性指標(PCC < 0.2)仍有很大改善空間,但本研究已明確指出了改善方向:擴 充資料集、採用更大規模模型、以及針對 Arousal 預測困難性開發專門化方法。 更重要的是,本研究證實了將連續值維度情感分析應用於財務文本的可行性,並為 後續研究者提供了可複製的資料集、評估框架,以及各模型特性的詳細分析。這 些基礎工作為日語財務情感分析領域開啟了新的研究方向。

展望未來,隨著計算資源的提升與資料集的擴充,維度情感分析有望成為財務資 訊處理的重要工具,為投資決策與市場分析提供更細緻的情感洞察。本研究作為 此領域的基石,期待能引導更多研究者投入,共同推動財務文本分析技術的發展。

bottom of page