はじめに
SheepLintはAIを用いた翻訳のチェックツールです。入力に対訳ファイル(xliff/xlsxなど)を用いつつ、AIが理解しやすいサイズまで自動で小分けすることで、ファイルをそのまま投入するよりも高精度なチェックが可能になっています。 また、翻訳メモリ(Translation Memory:TM)を情報として注入したり、文を似ているもの同士並べてリクエストすることも可能。過去訳や類似文と比較したうえでのチェックもできるようにしています。
入力・出力ファイルの流れ
SheepLintは一連の処理を自動化するパイプラインのようなもの。入
力されたファイルに対して、以下の処理を順次行い、最終的にtxtか、csv/xlsxで結果を一覧できるようにします。
読み込み
最初にファイルを原文、訳文、コンテキストからなるテキスト情報に変換します。 対応しているファイルは以下のとおりです。
- XLIFF
- MXLIFF(Phrase)
- MQXLIFF(memoq)
- Excel(A列に原文、B列に訳文、C列に補足情報)
- CSV(列構成はExcelと同様)
- Word(Phrase/memoq/xbenchからエクスポートされたもの)
- JSONL(プロパティは後述)
ファイルはこれらの対訳形式である必要があります。 もし通常のOfficeで翻訳が進行している場合、アラインツールを使用して対訳形式にまとめなければなりません。
ただし、AI に入力できるトークン量情報の幅を考えると、TM をつくるほどの粒度は不要です。
そのため、「段落」や「スライド」といった粗い単位でアラインするためのツールSheepGroomを用意しています。
必要な場合はぜひお試しください。
解析&変換
テキストの抽出が終わったら、さらにもう一段階、AIが理解しやすいようにテキストを変換しながら分割します。
変換形式は人間にも読みやすいCSV形式(番号,原文,訳文,コンテキスト)と、AIが扱いやすいJSONL形式を用意しています。 単純なチェックであればCSV形式でも問題ありませんが、TMを挟む計算や、コンテキストが複雑なもの、元の順序ではなく類似文を並べてチェックしたい場合はJSONL形式がおすすめです。
結果の取得
解析後はいよいよ AI モデルへの投入です。ここでは、Google のクラウドプラットフォーム Vertex AI を利用しています。
エンタープライズレベルのセキュリティと安定性を備えた Vertex AI を利用することで、安全かつ確実に AI によるチェックを行うことができます。