外加ん賀屋とかかんがーの話とか

旅行と写真、あと技術

めんどうな同人誌の校正はChatGPTにやらせた

概要

校正作業が死ぬほど嫌いで自分の文章を見返して適切な言葉にする作業を手伝ってもらった。体感40%くらいは楽になったし、自分一人だと考えない言い回しが提案されるので、気持ちが幾分か楽になった。

▲作業風景。ChatGPTで出力した文章のdiffを見つつ適切になおしている

使ったのはGPT-4モデル、 簡易的な日本語チェックでアシストでWordも用いている

使用にあたって

  • Chat GPTについての理解
    • Web上などの文章をコーパスとして用いている
    • 文字列の出力においては、尤もらしい文字を確率の計算をして出力している
    • →そのため正確性を問うような使い方には長けていない
  • 対象となる文章について
    • 人力で書き出した文章で、校正までの間にChatGPTを含む生成系AIを利用していない
    • 言語はほぼほぼ日本語でアルファベットは含まない(英単語はカタカナ表記)
    • 約12,000文字の旧海軍の組織や単語、市区町村名などの地名を含む文章

生成系AI利用にあたって下記のページを参考にした

utelecon.adm.u-tokyo.ac.jp

作業内容

上記前提から100%の信頼をChatGPTに向けるより30%くらいの期待値で、かつ本文の生成よりも提案してもらい、その内容について1つ1つ判断するのが理想的な使い方といえる。 そのため、内容の正確を問う本文は人手で調査・記述し、その内容において読み辛い、もしくは自然ではない文章(=一般的な表現から外れているもの等)を校正提案してもらう。

一例として下記のように文章の校正提案を実施した。

書籍に掲載する文章の校正をお願いします。
下記の文の文法的な誤りを訂正してよみやすい文章にしてもらえませんか。
* これは書籍で使う文章で口語体より文語体であることを期待しています
* です・ます調よりもだ・である調が好ましいです
* 誤字脱字があれば指摘だけしてください
* 変更箇所がなければ"無い"で大丈夫です
* 「」は発言、『』は書籍名のルールがあります
* 要約はしないでください

以下対象の文章
\```
監視艇隊から防備隊へと変わったことにより、哨戒だけではなくより広範囲な任務が増えることとなった。具体的には、哨戒任務が主であったものが、商船・漁船護衛が増え、防空砲台の部隊を隷下に置き要港や工廠・火薬廠・飛行場などの守備も任務となった他、福島県小名浜に分遣隊を置いていたり、女川・牡鹿半島には、防備隊とは別に第14突撃隊(通称として特攻隊を嵐部隊と称していた)が各地に置かれた。野々浜から萩浜まで半島の山を貫く道は嵐部隊が作った道で、峠の途中には部隊の名前からとった「嵐峠の碑」が置かれている。
\```

ChatGPT
以下、修正後の文章となります。

\```
監視艇隊から防備隊へと変わることで、哨戙だけでなく、より広範囲な任務が増えた。具体的には、主であった哨戒任務が補完され、商船・漁舷の護衛が増え、防空砲台の部隊を隷下に置き、要港や工廠・火薐広、飛行場などの守備も任務となった。また、福峷県小名浜に分遣隊を置いたり、女川・牡鹿半島には防備隊とは別に第14突撃隊(俗称として特攻隊を「嵐部隊」と称していた)が各地に配置された。野々浜から萩浜までの半島を貫く道は嵐部隊が作ったもので、峠の途中には部隊の名前からとった「嵐峠の碑」が置かれている。
\```

当初は変更部分も出力させていたが、変更内容の出力自体が不得意らしく、「その部分を強調してください」「リストにしてください」などの命令を入力したものの、正しく出力されないため別途diffツールを用いて変更箇所をわかりやすくした。

この変更内容を見つつWordファイル上の文章を修正し、何度か確認したのちIndesign側へと流し込みを行った。 利用させて頂いたdiffツールはこちら:https://difff.jp/

使ってみて

  • 出力結果で口語を使いたがる。ここは確実に制限しないと使い物にならない
  • 長い文章を入れると制約がある+修正作業が面倒なので3-4センテンスごとにやるとやりやすかった
  • やっているうちに出力形式が変わる、モデルに依拠してしまうので止めようがない
  • どこを変えたのか、示してほしいので「太字で変更点を示すこと」を入れていたが正しく出してくれない
    • diffツールと併用して可視化してあげる
  • 変更理由も出力してたが、やはりこの部分は微妙に信用できない
  • 固有名詞などはやはり弱い
    • 工廠→工場としたり多賀城→多賁城としたり
  • 内容を大きく変えることは無いけども、それでも意味が変わることがある