]> git.karo-electronics.de Git - karo-tx-linux.git/blob - fs/xfs/xfs_inode.c
xfs: decouple log and transaction headers
[karo-tx-linux.git] / fs / xfs / xfs_inode.c
1 /*
2  * Copyright (c) 2000-2006 Silicon Graphics, Inc.
3  * All Rights Reserved.
4  *
5  * This program is free software; you can redistribute it and/or
6  * modify it under the terms of the GNU General Public License as
7  * published by the Free Software Foundation.
8  *
9  * This program is distributed in the hope that it would be useful,
10  * but WITHOUT ANY WARRANTY; without even the implied warranty of
11  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12  * GNU General Public License for more details.
13  *
14  * You should have received a copy of the GNU General Public License
15  * along with this program; if not, write the Free Software Foundation,
16  * Inc.,  51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
17  */
18 #include <linux/log2.h>
19
20 #include "xfs.h"
21 #include "xfs_fs.h"
22 #include "xfs_shared.h"
23 #include "xfs_format.h"
24 #include "xfs_log_format.h"
25 #include "xfs_trans_resv.h"
26 #include "xfs_inum.h"
27 #include "xfs_sb.h"
28 #include "xfs_ag.h"
29 #include "xfs_mount.h"
30 #include "xfs_da_format.h"
31 #include "xfs_da_btree.h"
32 #include "xfs_dir2.h"
33 #include "xfs_bmap_btree.h"
34 #include "xfs_alloc_btree.h"
35 #include "xfs_ialloc_btree.h"
36 #include "xfs_attr_sf.h"
37 #include "xfs_attr.h"
38 #include "xfs_dinode.h"
39 #include "xfs_inode.h"
40 #include "xfs_trans_space.h"
41 #include "xfs_trans.h"
42 #include "xfs_buf_item.h"
43 #include "xfs_inode_item.h"
44 #include "xfs_btree.h"
45 #include "xfs_alloc.h"
46 #include "xfs_ialloc.h"
47 #include "xfs_bmap.h"
48 #include "xfs_bmap_util.h"
49 #include "xfs_error.h"
50 #include "xfs_quota.h"
51 #include "xfs_filestream.h"
52 #include "xfs_cksum.h"
53 #include "xfs_trace.h"
54 #include "xfs_icache.h"
55 #include "xfs_symlink.h"
56 #include "xfs_trans_priv.h"
57 #include "xfs_log.h"
58
59 kmem_zone_t *xfs_inode_zone;
60
61 /*
62  * Used in xfs_itruncate_extents().  This is the maximum number of extents
63  * freed from a file in a single transaction.
64  */
65 #define XFS_ITRUNC_MAX_EXTENTS  2
66
67 STATIC int xfs_iflush_int(xfs_inode_t *, xfs_buf_t *);
68
69 /*
70  * helper function to extract extent size hint from inode
71  */
72 xfs_extlen_t
73 xfs_get_extsz_hint(
74         struct xfs_inode        *ip)
75 {
76         if ((ip->i_d.di_flags & XFS_DIFLAG_EXTSIZE) && ip->i_d.di_extsize)
77                 return ip->i_d.di_extsize;
78         if (XFS_IS_REALTIME_INODE(ip))
79                 return ip->i_mount->m_sb.sb_rextsize;
80         return 0;
81 }
82
83 /*
84  * This is a wrapper routine around the xfs_ilock() routine used to centralize
85  * some grungy code.  It is used in places that wish to lock the inode solely
86  * for reading the extents.  The reason these places can't just call
87  * xfs_ilock(SHARED) is that the inode lock also guards to bringing in of the
88  * extents from disk for a file in b-tree format.  If the inode is in b-tree
89  * format, then we need to lock the inode exclusively until the extents are read
90  * in.  Locking it exclusively all the time would limit our parallelism
91  * unnecessarily, though.  What we do instead is check to see if the extents
92  * have been read in yet, and only lock the inode exclusively if they have not.
93  *
94  * The function returns a value which should be given to the corresponding
95  * xfs_iunlock_map_shared().  This value is the mode in which the lock was
96  * actually taken.
97  */
98 uint
99 xfs_ilock_map_shared(
100         xfs_inode_t     *ip)
101 {
102         uint    lock_mode;
103
104         if ((ip->i_d.di_format == XFS_DINODE_FMT_BTREE) &&
105             ((ip->i_df.if_flags & XFS_IFEXTENTS) == 0)) {
106                 lock_mode = XFS_ILOCK_EXCL;
107         } else {
108                 lock_mode = XFS_ILOCK_SHARED;
109         }
110
111         xfs_ilock(ip, lock_mode);
112
113         return lock_mode;
114 }
115
116 /*
117  * This is simply the unlock routine to go with xfs_ilock_map_shared().
118  * All it does is call xfs_iunlock() with the given lock_mode.
119  */
120 void
121 xfs_iunlock_map_shared(
122         xfs_inode_t     *ip,
123         unsigned int    lock_mode)
124 {
125         xfs_iunlock(ip, lock_mode);
126 }
127
128 /*
129  * The xfs inode contains 2 locks: a multi-reader lock called the
130  * i_iolock and a multi-reader lock called the i_lock.  This routine
131  * allows either or both of the locks to be obtained.
132  *
133  * The 2 locks should always be ordered so that the IO lock is
134  * obtained first in order to prevent deadlock.
135  *
136  * ip -- the inode being locked
137  * lock_flags -- this parameter indicates the inode's locks
138  *       to be locked.  It can be:
139  *              XFS_IOLOCK_SHARED,
140  *              XFS_IOLOCK_EXCL,
141  *              XFS_ILOCK_SHARED,
142  *              XFS_ILOCK_EXCL,
143  *              XFS_IOLOCK_SHARED | XFS_ILOCK_SHARED,
144  *              XFS_IOLOCK_SHARED | XFS_ILOCK_EXCL,
145  *              XFS_IOLOCK_EXCL | XFS_ILOCK_SHARED,
146  *              XFS_IOLOCK_EXCL | XFS_ILOCK_EXCL
147  */
148 void
149 xfs_ilock(
150         xfs_inode_t             *ip,
151         uint                    lock_flags)
152 {
153         trace_xfs_ilock(ip, lock_flags, _RET_IP_);
154
155         /*
156          * You can't set both SHARED and EXCL for the same lock,
157          * and only XFS_IOLOCK_SHARED, XFS_IOLOCK_EXCL, XFS_ILOCK_SHARED,
158          * and XFS_ILOCK_EXCL are valid values to set in lock_flags.
159          */
160         ASSERT((lock_flags & (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL)) !=
161                (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL));
162         ASSERT((lock_flags & (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL)) !=
163                (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL));
164         ASSERT((lock_flags & ~(XFS_LOCK_MASK | XFS_LOCK_DEP_MASK)) == 0);
165
166         if (lock_flags & XFS_IOLOCK_EXCL)
167                 mrupdate_nested(&ip->i_iolock, XFS_IOLOCK_DEP(lock_flags));
168         else if (lock_flags & XFS_IOLOCK_SHARED)
169                 mraccess_nested(&ip->i_iolock, XFS_IOLOCK_DEP(lock_flags));
170
171         if (lock_flags & XFS_ILOCK_EXCL)
172                 mrupdate_nested(&ip->i_lock, XFS_ILOCK_DEP(lock_flags));
173         else if (lock_flags & XFS_ILOCK_SHARED)
174                 mraccess_nested(&ip->i_lock, XFS_ILOCK_DEP(lock_flags));
175 }
176
177 /*
178  * This is just like xfs_ilock(), except that the caller
179  * is guaranteed not to sleep.  It returns 1 if it gets
180  * the requested locks and 0 otherwise.  If the IO lock is
181  * obtained but the inode lock cannot be, then the IO lock
182  * is dropped before returning.
183  *
184  * ip -- the inode being locked
185  * lock_flags -- this parameter indicates the inode's locks to be
186  *       to be locked.  See the comment for xfs_ilock() for a list
187  *       of valid values.
188  */
189 int
190 xfs_ilock_nowait(
191         xfs_inode_t             *ip,
192         uint                    lock_flags)
193 {
194         trace_xfs_ilock_nowait(ip, lock_flags, _RET_IP_);
195
196         /*
197          * You can't set both SHARED and EXCL for the same lock,
198          * and only XFS_IOLOCK_SHARED, XFS_IOLOCK_EXCL, XFS_ILOCK_SHARED,
199          * and XFS_ILOCK_EXCL are valid values to set in lock_flags.
200          */
201         ASSERT((lock_flags & (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL)) !=
202                (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL));
203         ASSERT((lock_flags & (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL)) !=
204                (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL));
205         ASSERT((lock_flags & ~(XFS_LOCK_MASK | XFS_LOCK_DEP_MASK)) == 0);
206
207         if (lock_flags & XFS_IOLOCK_EXCL) {
208                 if (!mrtryupdate(&ip->i_iolock))
209                         goto out;
210         } else if (lock_flags & XFS_IOLOCK_SHARED) {
211                 if (!mrtryaccess(&ip->i_iolock))
212                         goto out;
213         }
214         if (lock_flags & XFS_ILOCK_EXCL) {
215                 if (!mrtryupdate(&ip->i_lock))
216                         goto out_undo_iolock;
217         } else if (lock_flags & XFS_ILOCK_SHARED) {
218                 if (!mrtryaccess(&ip->i_lock))
219                         goto out_undo_iolock;
220         }
221         return 1;
222
223  out_undo_iolock:
224         if (lock_flags & XFS_IOLOCK_EXCL)
225                 mrunlock_excl(&ip->i_iolock);
226         else if (lock_flags & XFS_IOLOCK_SHARED)
227                 mrunlock_shared(&ip->i_iolock);
228  out:
229         return 0;
230 }
231
232 /*
233  * xfs_iunlock() is used to drop the inode locks acquired with
234  * xfs_ilock() and xfs_ilock_nowait().  The caller must pass
235  * in the flags given to xfs_ilock() or xfs_ilock_nowait() so
236  * that we know which locks to drop.
237  *
238  * ip -- the inode being unlocked
239  * lock_flags -- this parameter indicates the inode's locks to be
240  *       to be unlocked.  See the comment for xfs_ilock() for a list
241  *       of valid values for this parameter.
242  *
243  */
244 void
245 xfs_iunlock(
246         xfs_inode_t             *ip,
247         uint                    lock_flags)
248 {
249         /*
250          * You can't set both SHARED and EXCL for the same lock,
251          * and only XFS_IOLOCK_SHARED, XFS_IOLOCK_EXCL, XFS_ILOCK_SHARED,
252          * and XFS_ILOCK_EXCL are valid values to set in lock_flags.
253          */
254         ASSERT((lock_flags & (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL)) !=
255                (XFS_IOLOCK_SHARED | XFS_IOLOCK_EXCL));
256         ASSERT((lock_flags & (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL)) !=
257                (XFS_ILOCK_SHARED | XFS_ILOCK_EXCL));
258         ASSERT((lock_flags & ~(XFS_LOCK_MASK | XFS_LOCK_DEP_MASK)) == 0);
259         ASSERT(lock_flags != 0);
260
261         if (lock_flags & XFS_IOLOCK_EXCL)
262                 mrunlock_excl(&ip->i_iolock);
263         else if (lock_flags & XFS_IOLOCK_SHARED)
264                 mrunlock_shared(&ip->i_iolock);
265
266         if (lock_flags & XFS_ILOCK_EXCL)
267                 mrunlock_excl(&ip->i_lock);
268         else if (lock_flags & XFS_ILOCK_SHARED)
269                 mrunlock_shared(&ip->i_lock);
270
271         trace_xfs_iunlock(ip, lock_flags, _RET_IP_);
272 }
273
274 /*
275  * give up write locks.  the i/o lock cannot be held nested
276  * if it is being demoted.
277  */
278 void
279 xfs_ilock_demote(
280         xfs_inode_t             *ip,
281         uint                    lock_flags)
282 {
283         ASSERT(lock_flags & (XFS_IOLOCK_EXCL|XFS_ILOCK_EXCL));
284         ASSERT((lock_flags & ~(XFS_IOLOCK_EXCL|XFS_ILOCK_EXCL)) == 0);
285
286         if (lock_flags & XFS_ILOCK_EXCL)
287                 mrdemote(&ip->i_lock);
288         if (lock_flags & XFS_IOLOCK_EXCL)
289                 mrdemote(&ip->i_iolock);
290
291         trace_xfs_ilock_demote(ip, lock_flags, _RET_IP_);
292 }
293
294 #if defined(DEBUG) || defined(XFS_WARN)
295 int
296 xfs_isilocked(
297         xfs_inode_t             *ip,
298         uint                    lock_flags)
299 {
300         if (lock_flags & (XFS_ILOCK_EXCL|XFS_ILOCK_SHARED)) {
301                 if (!(lock_flags & XFS_ILOCK_SHARED))
302                         return !!ip->i_lock.mr_writer;
303                 return rwsem_is_locked(&ip->i_lock.mr_lock);
304         }
305
306         if (lock_flags & (XFS_IOLOCK_EXCL|XFS_IOLOCK_SHARED)) {
307                 if (!(lock_flags & XFS_IOLOCK_SHARED))
308                         return !!ip->i_iolock.mr_writer;
309                 return rwsem_is_locked(&ip->i_iolock.mr_lock);
310         }
311
312         ASSERT(0);
313         return 0;
314 }
315 #endif
316
317 #ifdef DEBUG
318 int xfs_locked_n;
319 int xfs_small_retries;
320 int xfs_middle_retries;
321 int xfs_lots_retries;
322 int xfs_lock_delays;
323 #endif
324
325 /*
326  * Bump the subclass so xfs_lock_inodes() acquires each lock with
327  * a different value
328  */
329 static inline int
330 xfs_lock_inumorder(int lock_mode, int subclass)
331 {
332         if (lock_mode & (XFS_IOLOCK_SHARED|XFS_IOLOCK_EXCL))
333                 lock_mode |= (subclass + XFS_LOCK_INUMORDER) << XFS_IOLOCK_SHIFT;
334         if (lock_mode & (XFS_ILOCK_SHARED|XFS_ILOCK_EXCL))
335                 lock_mode |= (subclass + XFS_LOCK_INUMORDER) << XFS_ILOCK_SHIFT;
336
337         return lock_mode;
338 }
339
340 /*
341  * The following routine will lock n inodes in exclusive mode.
342  * We assume the caller calls us with the inodes in i_ino order.
343  *
344  * We need to detect deadlock where an inode that we lock
345  * is in the AIL and we start waiting for another inode that is locked
346  * by a thread in a long running transaction (such as truncate). This can
347  * result in deadlock since the long running trans might need to wait
348  * for the inode we just locked in order to push the tail and free space
349  * in the log.
350  */
351 void
352 xfs_lock_inodes(
353         xfs_inode_t     **ips,
354         int             inodes,
355         uint            lock_mode)
356 {
357         int             attempts = 0, i, j, try_lock;
358         xfs_log_item_t  *lp;
359
360         ASSERT(ips && (inodes >= 2)); /* we need at least two */
361
362         try_lock = 0;
363         i = 0;
364
365 again:
366         for (; i < inodes; i++) {
367                 ASSERT(ips[i]);
368
369                 if (i && (ips[i] == ips[i-1]))  /* Already locked */
370                         continue;
371
372                 /*
373                  * If try_lock is not set yet, make sure all locked inodes
374                  * are not in the AIL.
375                  * If any are, set try_lock to be used later.
376                  */
377
378                 if (!try_lock) {
379                         for (j = (i - 1); j >= 0 && !try_lock; j--) {
380                                 lp = (xfs_log_item_t *)ips[j]->i_itemp;
381                                 if (lp && (lp->li_flags & XFS_LI_IN_AIL)) {
382                                         try_lock++;
383                                 }
384                         }
385                 }
386
387                 /*
388                  * If any of the previous locks we have locked is in the AIL,
389                  * we must TRY to get the second and subsequent locks. If
390                  * we can't get any, we must release all we have
391                  * and try again.
392                  */
393
394                 if (try_lock) {
395                         /* try_lock must be 0 if i is 0. */
396                         /*
397                          * try_lock means we have an inode locked
398                          * that is in the AIL.
399                          */
400                         ASSERT(i != 0);
401                         if (!xfs_ilock_nowait(ips[i], xfs_lock_inumorder(lock_mode, i))) {
402                                 attempts++;
403
404                                 /*
405                                  * Unlock all previous guys and try again.
406                                  * xfs_iunlock will try to push the tail
407                                  * if the inode is in the AIL.
408                                  */
409
410                                 for(j = i - 1; j >= 0; j--) {
411
412                                         /*
413                                          * Check to see if we've already
414                                          * unlocked this one.
415                                          * Not the first one going back,
416                                          * and the inode ptr is the same.
417                                          */
418                                         if ((j != (i - 1)) && ips[j] ==
419                                                                 ips[j+1])
420                                                 continue;
421
422                                         xfs_iunlock(ips[j], lock_mode);
423                                 }
424
425                                 if ((attempts % 5) == 0) {
426                                         delay(1); /* Don't just spin the CPU */
427 #ifdef DEBUG
428                                         xfs_lock_delays++;
429 #endif
430                                 }
431                                 i = 0;
432                                 try_lock = 0;
433                                 goto again;
434                         }
435                 } else {
436                         xfs_ilock(ips[i], xfs_lock_inumorder(lock_mode, i));
437                 }
438         }
439
440 #ifdef DEBUG
441         if (attempts) {
442                 if (attempts < 5) xfs_small_retries++;
443                 else if (attempts < 100) xfs_middle_retries++;
444                 else xfs_lots_retries++;
445         } else {
446                 xfs_locked_n++;
447         }
448 #endif
449 }
450
451 /*
452  * xfs_lock_two_inodes() can only be used to lock one type of lock
453  * at a time - the iolock or the ilock, but not both at once. If
454  * we lock both at once, lockdep will report false positives saying
455  * we have violated locking orders.
456  */
457 void
458 xfs_lock_two_inodes(
459         xfs_inode_t             *ip0,
460         xfs_inode_t             *ip1,
461         uint                    lock_mode)
462 {
463         xfs_inode_t             *temp;
464         int                     attempts = 0;
465         xfs_log_item_t          *lp;
466
467         if (lock_mode & (XFS_IOLOCK_SHARED|XFS_IOLOCK_EXCL))
468                 ASSERT((lock_mode & (XFS_ILOCK_SHARED|XFS_ILOCK_EXCL)) == 0);
469         ASSERT(ip0->i_ino != ip1->i_ino);
470
471         if (ip0->i_ino > ip1->i_ino) {
472                 temp = ip0;
473                 ip0 = ip1;
474                 ip1 = temp;
475         }
476
477  again:
478         xfs_ilock(ip0, xfs_lock_inumorder(lock_mode, 0));
479
480         /*
481          * If the first lock we have locked is in the AIL, we must TRY to get
482          * the second lock. If we can't get it, we must release the first one
483          * and try again.
484          */
485         lp = (xfs_log_item_t *)ip0->i_itemp;
486         if (lp && (lp->li_flags & XFS_LI_IN_AIL)) {
487                 if (!xfs_ilock_nowait(ip1, xfs_lock_inumorder(lock_mode, 1))) {
488                         xfs_iunlock(ip0, lock_mode);
489                         if ((++attempts % 5) == 0)
490                                 delay(1); /* Don't just spin the CPU */
491                         goto again;
492                 }
493         } else {
494                 xfs_ilock(ip1, xfs_lock_inumorder(lock_mode, 1));
495         }
496 }
497
498
499 void
500 __xfs_iflock(
501         struct xfs_inode        *ip)
502 {
503         wait_queue_head_t *wq = bit_waitqueue(&ip->i_flags, __XFS_IFLOCK_BIT);
504         DEFINE_WAIT_BIT(wait, &ip->i_flags, __XFS_IFLOCK_BIT);
505
506         do {
507                 prepare_to_wait_exclusive(wq, &wait.wait, TASK_UNINTERRUPTIBLE);
508                 if (xfs_isiflocked(ip))
509                         io_schedule();
510         } while (!xfs_iflock_nowait(ip));
511
512         finish_wait(wq, &wait.wait);
513 }
514
515 STATIC uint
516 _xfs_dic2xflags(
517         __uint16_t              di_flags)
518 {
519         uint                    flags = 0;
520
521         if (di_flags & XFS_DIFLAG_ANY) {
522                 if (di_flags & XFS_DIFLAG_REALTIME)
523                         flags |= XFS_XFLAG_REALTIME;
524                 if (di_flags & XFS_DIFLAG_PREALLOC)
525                         flags |= XFS_XFLAG_PREALLOC;
526                 if (di_flags & XFS_DIFLAG_IMMUTABLE)
527                         flags |= XFS_XFLAG_IMMUTABLE;
528                 if (di_flags & XFS_DIFLAG_APPEND)
529                         flags |= XFS_XFLAG_APPEND;
530                 if (di_flags & XFS_DIFLAG_SYNC)
531                         flags |= XFS_XFLAG_SYNC;
532                 if (di_flags & XFS_DIFLAG_NOATIME)
533                         flags |= XFS_XFLAG_NOATIME;
534                 if (di_flags & XFS_DIFLAG_NODUMP)
535                         flags |= XFS_XFLAG_NODUMP;
536                 if (di_flags & XFS_DIFLAG_RTINHERIT)
537                         flags |= XFS_XFLAG_RTINHERIT;
538                 if (di_flags & XFS_DIFLAG_PROJINHERIT)
539                         flags |= XFS_XFLAG_PROJINHERIT;
540                 if (di_flags & XFS_DIFLAG_NOSYMLINKS)
541                         flags |= XFS_XFLAG_NOSYMLINKS;
542                 if (di_flags & XFS_DIFLAG_EXTSIZE)
543                         flags |= XFS_XFLAG_EXTSIZE;
544                 if (di_flags & XFS_DIFLAG_EXTSZINHERIT)
545                         flags |= XFS_XFLAG_EXTSZINHERIT;
546                 if (di_flags & XFS_DIFLAG_NODEFRAG)
547                         flags |= XFS_XFLAG_NODEFRAG;
548                 if (di_flags & XFS_DIFLAG_FILESTREAM)
549                         flags |= XFS_XFLAG_FILESTREAM;
550         }
551
552         return flags;
553 }
554
555 uint
556 xfs_ip2xflags(
557         xfs_inode_t             *ip)
558 {
559         xfs_icdinode_t          *dic = &ip->i_d;
560
561         return _xfs_dic2xflags(dic->di_flags) |
562                                 (XFS_IFORK_Q(ip) ? XFS_XFLAG_HASATTR : 0);
563 }
564
565 uint
566 xfs_dic2xflags(
567         xfs_dinode_t            *dip)
568 {
569         return _xfs_dic2xflags(be16_to_cpu(dip->di_flags)) |
570                                 (XFS_DFORK_Q(dip) ? XFS_XFLAG_HASATTR : 0);
571 }
572
573 /*
574  * Lookups up an inode from "name". If ci_name is not NULL, then a CI match
575  * is allowed, otherwise it has to be an exact match. If a CI match is found,
576  * ci_name->name will point to a the actual name (caller must free) or
577  * will be set to NULL if an exact match is found.
578  */
579 int
580 xfs_lookup(
581         xfs_inode_t             *dp,
582         struct xfs_name         *name,
583         xfs_inode_t             **ipp,
584         struct xfs_name         *ci_name)
585 {
586         xfs_ino_t               inum;
587         int                     error;
588         uint                    lock_mode;
589
590         trace_xfs_lookup(dp, name);
591
592         if (XFS_FORCED_SHUTDOWN(dp->i_mount))
593                 return XFS_ERROR(EIO);
594
595         lock_mode = xfs_ilock_map_shared(dp);
596         error = xfs_dir_lookup(NULL, dp, name, &inum, ci_name);
597         xfs_iunlock_map_shared(dp, lock_mode);
598
599         if (error)
600                 goto out;
601
602         error = xfs_iget(dp->i_mount, NULL, inum, 0, 0, ipp);
603         if (error)
604                 goto out_free_name;
605
606         return 0;
607
608 out_free_name:
609         if (ci_name)
610                 kmem_free(ci_name->name);
611 out:
612         *ipp = NULL;
613         return error;
614 }
615
616 /*
617  * Allocate an inode on disk and return a copy of its in-core version.
618  * The in-core inode is locked exclusively.  Set mode, nlink, and rdev
619  * appropriately within the inode.  The uid and gid for the inode are
620  * set according to the contents of the given cred structure.
621  *
622  * Use xfs_dialloc() to allocate the on-disk inode. If xfs_dialloc()
623  * has a free inode available, call xfs_iget() to obtain the in-core
624  * version of the allocated inode.  Finally, fill in the inode and
625  * log its initial contents.  In this case, ialloc_context would be
626  * set to NULL.
627  *
628  * If xfs_dialloc() does not have an available inode, it will replenish
629  * its supply by doing an allocation. Since we can only do one
630  * allocation within a transaction without deadlocks, we must commit
631  * the current transaction before returning the inode itself.
632  * In this case, therefore, we will set ialloc_context and return.
633  * The caller should then commit the current transaction, start a new
634  * transaction, and call xfs_ialloc() again to actually get the inode.
635  *
636  * To ensure that some other process does not grab the inode that
637  * was allocated during the first call to xfs_ialloc(), this routine
638  * also returns the [locked] bp pointing to the head of the freelist
639  * as ialloc_context.  The caller should hold this buffer across
640  * the commit and pass it back into this routine on the second call.
641  *
642  * If we are allocating quota inodes, we do not have a parent inode
643  * to attach to or associate with (i.e. pip == NULL) because they
644  * are not linked into the directory structure - they are attached
645  * directly to the superblock - and so have no parent.
646  */
647 int
648 xfs_ialloc(
649         xfs_trans_t     *tp,
650         xfs_inode_t     *pip,
651         umode_t         mode,
652         xfs_nlink_t     nlink,
653         xfs_dev_t       rdev,
654         prid_t          prid,
655         int             okalloc,
656         xfs_buf_t       **ialloc_context,
657         xfs_inode_t     **ipp)
658 {
659         struct xfs_mount *mp = tp->t_mountp;
660         xfs_ino_t       ino;
661         xfs_inode_t     *ip;
662         uint            flags;
663         int             error;
664         timespec_t      tv;
665         int             filestreams = 0;
666
667         /*
668          * Call the space management code to pick
669          * the on-disk inode to be allocated.
670          */
671         error = xfs_dialloc(tp, pip ? pip->i_ino : 0, mode, okalloc,
672                             ialloc_context, &ino);
673         if (error)
674                 return error;
675         if (*ialloc_context || ino == NULLFSINO) {
676                 *ipp = NULL;
677                 return 0;
678         }
679         ASSERT(*ialloc_context == NULL);
680
681         /*
682          * Get the in-core inode with the lock held exclusively.
683          * This is because we're setting fields here we need
684          * to prevent others from looking at until we're done.
685          */
686         error = xfs_iget(mp, tp, ino, XFS_IGET_CREATE,
687                          XFS_ILOCK_EXCL, &ip);
688         if (error)
689                 return error;
690         ASSERT(ip != NULL);
691
692         ip->i_d.di_mode = mode;
693         ip->i_d.di_onlink = 0;
694         ip->i_d.di_nlink = nlink;
695         ASSERT(ip->i_d.di_nlink == nlink);
696         ip->i_d.di_uid = xfs_kuid_to_uid(current_fsuid());
697         ip->i_d.di_gid = xfs_kgid_to_gid(current_fsgid());
698         xfs_set_projid(ip, prid);
699         memset(&(ip->i_d.di_pad[0]), 0, sizeof(ip->i_d.di_pad));
700
701         /*
702          * If the superblock version is up to where we support new format
703          * inodes and this is currently an old format inode, then change
704          * the inode version number now.  This way we only do the conversion
705          * here rather than here and in the flush/logging code.
706          */
707         if (xfs_sb_version_hasnlink(&mp->m_sb) &&
708             ip->i_d.di_version == 1) {
709                 ip->i_d.di_version = 2;
710                 /*
711                  * We've already zeroed the old link count, the projid field,
712                  * and the pad field.
713                  */
714         }
715
716         /*
717          * Project ids won't be stored on disk if we are using a version 1 inode.
718          */
719         if ((prid != 0) && (ip->i_d.di_version == 1))
720                 xfs_bump_ino_vers2(tp, ip);
721
722         if (pip && XFS_INHERIT_GID(pip)) {
723                 ip->i_d.di_gid = pip->i_d.di_gid;
724                 if ((pip->i_d.di_mode & S_ISGID) && S_ISDIR(mode)) {
725                         ip->i_d.di_mode |= S_ISGID;
726                 }
727         }
728
729         /*
730          * If the group ID of the new file does not match the effective group
731          * ID or one of the supplementary group IDs, the S_ISGID bit is cleared
732          * (and only if the irix_sgid_inherit compatibility variable is set).
733          */
734         if ((irix_sgid_inherit) &&
735             (ip->i_d.di_mode & S_ISGID) &&
736             (!in_group_p(xfs_gid_to_kgid(ip->i_d.di_gid)))) {
737                 ip->i_d.di_mode &= ~S_ISGID;
738         }
739
740         ip->i_d.di_size = 0;
741         ip->i_d.di_nextents = 0;
742         ASSERT(ip->i_d.di_nblocks == 0);
743
744         nanotime(&tv);
745         ip->i_d.di_mtime.t_sec = (__int32_t)tv.tv_sec;
746         ip->i_d.di_mtime.t_nsec = (__int32_t)tv.tv_nsec;
747         ip->i_d.di_atime = ip->i_d.di_mtime;
748         ip->i_d.di_ctime = ip->i_d.di_mtime;
749
750         /*
751          * di_gen will have been taken care of in xfs_iread.
752          */
753         ip->i_d.di_extsize = 0;
754         ip->i_d.di_dmevmask = 0;
755         ip->i_d.di_dmstate = 0;
756         ip->i_d.di_flags = 0;
757
758         if (ip->i_d.di_version == 3) {
759                 ASSERT(ip->i_d.di_ino == ino);
760                 ASSERT(uuid_equal(&ip->i_d.di_uuid, &mp->m_sb.sb_uuid));
761                 ip->i_d.di_crc = 0;
762                 ip->i_d.di_changecount = 1;
763                 ip->i_d.di_lsn = 0;
764                 ip->i_d.di_flags2 = 0;
765                 memset(&(ip->i_d.di_pad2[0]), 0, sizeof(ip->i_d.di_pad2));
766                 ip->i_d.di_crtime = ip->i_d.di_mtime;
767         }
768
769
770         flags = XFS_ILOG_CORE;
771         switch (mode & S_IFMT) {
772         case S_IFIFO:
773         case S_IFCHR:
774         case S_IFBLK:
775         case S_IFSOCK:
776                 ip->i_d.di_format = XFS_DINODE_FMT_DEV;
777                 ip->i_df.if_u2.if_rdev = rdev;
778                 ip->i_df.if_flags = 0;
779                 flags |= XFS_ILOG_DEV;
780                 break;
781         case S_IFREG:
782                 /*
783                  * we can't set up filestreams until after the VFS inode
784                  * is set up properly.
785                  */
786                 if (pip && xfs_inode_is_filestream(pip))
787                         filestreams = 1;
788                 /* fall through */
789         case S_IFDIR:
790                 if (pip && (pip->i_d.di_flags & XFS_DIFLAG_ANY)) {
791                         uint    di_flags = 0;
792
793                         if (S_ISDIR(mode)) {
794                                 if (pip->i_d.di_flags & XFS_DIFLAG_RTINHERIT)
795                                         di_flags |= XFS_DIFLAG_RTINHERIT;
796                                 if (pip->i_d.di_flags & XFS_DIFLAG_EXTSZINHERIT) {
797                                         di_flags |= XFS_DIFLAG_EXTSZINHERIT;
798                                         ip->i_d.di_extsize = pip->i_d.di_extsize;
799                                 }
800                         } else if (S_ISREG(mode)) {
801                                 if (pip->i_d.di_flags & XFS_DIFLAG_RTINHERIT)
802                                         di_flags |= XFS_DIFLAG_REALTIME;
803                                 if (pip->i_d.di_flags & XFS_DIFLAG_EXTSZINHERIT) {
804                                         di_flags |= XFS_DIFLAG_EXTSIZE;
805                                         ip->i_d.di_extsize = pip->i_d.di_extsize;
806                                 }
807                         }
808                         if ((pip->i_d.di_flags & XFS_DIFLAG_NOATIME) &&
809                             xfs_inherit_noatime)
810                                 di_flags |= XFS_DIFLAG_NOATIME;
811                         if ((pip->i_d.di_flags & XFS_DIFLAG_NODUMP) &&
812                             xfs_inherit_nodump)
813                                 di_flags |= XFS_DIFLAG_NODUMP;
814                         if ((pip->i_d.di_flags & XFS_DIFLAG_SYNC) &&
815                             xfs_inherit_sync)
816                                 di_flags |= XFS_DIFLAG_SYNC;
817                         if ((pip->i_d.di_flags & XFS_DIFLAG_NOSYMLINKS) &&
818                             xfs_inherit_nosymlinks)
819                                 di_flags |= XFS_DIFLAG_NOSYMLINKS;
820                         if (pip->i_d.di_flags & XFS_DIFLAG_PROJINHERIT)
821                                 di_flags |= XFS_DIFLAG_PROJINHERIT;
822                         if ((pip->i_d.di_flags & XFS_DIFLAG_NODEFRAG) &&
823                             xfs_inherit_nodefrag)
824                                 di_flags |= XFS_DIFLAG_NODEFRAG;
825                         if (pip->i_d.di_flags & XFS_DIFLAG_FILESTREAM)
826                                 di_flags |= XFS_DIFLAG_FILESTREAM;
827                         ip->i_d.di_flags |= di_flags;
828                 }
829                 /* FALLTHROUGH */
830         case S_IFLNK:
831                 ip->i_d.di_format = XFS_DINODE_FMT_EXTENTS;
832                 ip->i_df.if_flags = XFS_IFEXTENTS;
833                 ip->i_df.if_bytes = ip->i_df.if_real_bytes = 0;
834                 ip->i_df.if_u1.if_extents = NULL;
835                 break;
836         default:
837                 ASSERT(0);
838         }
839         /*
840          * Attribute fork settings for new inode.
841          */
842         ip->i_d.di_aformat = XFS_DINODE_FMT_EXTENTS;
843         ip->i_d.di_anextents = 0;
844
845         /*
846          * Log the new values stuffed into the inode.
847          */
848         xfs_trans_ijoin(tp, ip, XFS_ILOCK_EXCL);
849         xfs_trans_log_inode(tp, ip, flags);
850
851         /* now that we have an i_mode we can setup inode ops and unlock */
852         xfs_setup_inode(ip);
853
854         /* now we have set up the vfs inode we can associate the filestream */
855         if (filestreams) {
856                 error = xfs_filestream_associate(pip, ip);
857                 if (error < 0)
858                         return -error;
859                 if (!error)
860                         xfs_iflags_set(ip, XFS_IFILESTREAM);
861         }
862
863         *ipp = ip;
864         return 0;
865 }
866
867 /*
868  * Allocates a new inode from disk and return a pointer to the
869  * incore copy. This routine will internally commit the current
870  * transaction and allocate a new one if the Space Manager needed
871  * to do an allocation to replenish the inode free-list.
872  *
873  * This routine is designed to be called from xfs_create and
874  * xfs_create_dir.
875  *
876  */
877 int
878 xfs_dir_ialloc(
879         xfs_trans_t     **tpp,          /* input: current transaction;
880                                            output: may be a new transaction. */
881         xfs_inode_t     *dp,            /* directory within whose allocate
882                                            the inode. */
883         umode_t         mode,
884         xfs_nlink_t     nlink,
885         xfs_dev_t       rdev,
886         prid_t          prid,           /* project id */
887         int             okalloc,        /* ok to allocate new space */
888         xfs_inode_t     **ipp,          /* pointer to inode; it will be
889                                            locked. */
890         int             *committed)
891
892 {
893         xfs_trans_t     *tp;
894         xfs_trans_t     *ntp;
895         xfs_inode_t     *ip;
896         xfs_buf_t       *ialloc_context = NULL;
897         int             code;
898         void            *dqinfo;
899         uint            tflags;
900
901         tp = *tpp;
902         ASSERT(tp->t_flags & XFS_TRANS_PERM_LOG_RES);
903
904         /*
905          * xfs_ialloc will return a pointer to an incore inode if
906          * the Space Manager has an available inode on the free
907          * list. Otherwise, it will do an allocation and replenish
908          * the freelist.  Since we can only do one allocation per
909          * transaction without deadlocks, we will need to commit the
910          * current transaction and start a new one.  We will then
911          * need to call xfs_ialloc again to get the inode.
912          *
913          * If xfs_ialloc did an allocation to replenish the freelist,
914          * it returns the bp containing the head of the freelist as
915          * ialloc_context. We will hold a lock on it across the
916          * transaction commit so that no other process can steal
917          * the inode(s) that we've just allocated.
918          */
919         code = xfs_ialloc(tp, dp, mode, nlink, rdev, prid, okalloc,
920                           &ialloc_context, &ip);
921
922         /*
923          * Return an error if we were unable to allocate a new inode.
924          * This should only happen if we run out of space on disk or
925          * encounter a disk error.
926          */
927         if (code) {
928                 *ipp = NULL;
929                 return code;
930         }
931         if (!ialloc_context && !ip) {
932                 *ipp = NULL;
933                 return XFS_ERROR(ENOSPC);
934         }
935
936         /*
937          * If the AGI buffer is non-NULL, then we were unable to get an
938          * inode in one operation.  We need to commit the current
939          * transaction and call xfs_ialloc() again.  It is guaranteed
940          * to succeed the second time.
941          */
942         if (ialloc_context) {
943                 struct xfs_trans_res tres;
944
945                 /*
946                  * Normally, xfs_trans_commit releases all the locks.
947                  * We call bhold to hang on to the ialloc_context across
948                  * the commit.  Holding this buffer prevents any other
949                  * processes from doing any allocations in this
950                  * allocation group.
951                  */
952                 xfs_trans_bhold(tp, ialloc_context);
953                 /*
954                  * Save the log reservation so we can use
955                  * them in the next transaction.
956                  */
957                 tres.tr_logres = xfs_trans_get_log_res(tp);
958                 tres.tr_logcount = xfs_trans_get_log_count(tp);
959
960                 /*
961                  * We want the quota changes to be associated with the next
962                  * transaction, NOT this one. So, detach the dqinfo from this
963                  * and attach it to the next transaction.
964                  */
965                 dqinfo = NULL;
966                 tflags = 0;
967                 if (tp->t_dqinfo) {
968                         dqinfo = (void *)tp->t_dqinfo;
969                         tp->t_dqinfo = NULL;
970                         tflags = tp->t_flags & XFS_TRANS_DQ_DIRTY;
971                         tp->t_flags &= ~(XFS_TRANS_DQ_DIRTY);
972                 }
973
974                 ntp = xfs_trans_dup(tp);
975                 code = xfs_trans_commit(tp, 0);
976                 tp = ntp;
977                 if (committed != NULL) {
978                         *committed = 1;
979                 }
980                 /*
981                  * If we get an error during the commit processing,
982                  * release the buffer that is still held and return
983                  * to the caller.
984                  */
985                 if (code) {
986                         xfs_buf_relse(ialloc_context);
987                         if (dqinfo) {
988                                 tp->t_dqinfo = dqinfo;
989                                 xfs_trans_free_dqinfo(tp);
990                         }
991                         *tpp = ntp;
992                         *ipp = NULL;
993                         return code;
994                 }
995
996                 /*
997                  * transaction commit worked ok so we can drop the extra ticket
998                  * reference that we gained in xfs_trans_dup()
999                  */
1000                 xfs_log_ticket_put(tp->t_ticket);
1001                 tres.tr_logflags = XFS_TRANS_PERM_LOG_RES;
1002                 code = xfs_trans_reserve(tp, &tres, 0, 0);
1003
1004                 /*
1005                  * Re-attach the quota info that we detached from prev trx.
1006                  */
1007                 if (dqinfo) {
1008                         tp->t_dqinfo = dqinfo;
1009                         tp->t_flags |= tflags;
1010                 }
1011
1012                 if (code) {
1013                         xfs_buf_relse(ialloc_context);
1014                         *tpp = ntp;
1015                         *ipp = NULL;
1016                         return code;
1017                 }
1018                 xfs_trans_bjoin(tp, ialloc_context);
1019
1020                 /*
1021                  * Call ialloc again. Since we've locked out all
1022                  * other allocations in this allocation group,
1023                  * this call should always succeed.
1024                  */
1025                 code = xfs_ialloc(tp, dp, mode, nlink, rdev, prid,
1026                                   okalloc, &ialloc_context, &ip);
1027
1028                 /*
1029                  * If we get an error at this point, return to the caller
1030                  * so that the current transaction can be aborted.
1031                  */
1032                 if (code) {
1033                         *tpp = tp;
1034                         *ipp = NULL;
1035                         return code;
1036                 }
1037                 ASSERT(!ialloc_context && ip);
1038
1039         } else {
1040                 if (committed != NULL)
1041                         *committed = 0;
1042         }
1043
1044         *ipp = ip;
1045         *tpp = tp;
1046
1047         return 0;
1048 }
1049
1050 /*
1051  * Decrement the link count on an inode & log the change.
1052  * If this causes the link count to go to zero, initiate the
1053  * logging activity required to truncate a file.
1054  */
1055 int                             /* error */
1056 xfs_droplink(
1057         xfs_trans_t *tp,
1058         xfs_inode_t *ip)
1059 {
1060         int     error;
1061
1062         xfs_trans_ichgtime(tp, ip, XFS_ICHGTIME_CHG);
1063
1064         ASSERT (ip->i_d.di_nlink > 0);
1065         ip->i_d.di_nlink--;
1066         drop_nlink(VFS_I(ip));
1067         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
1068
1069         error = 0;
1070         if (ip->i_d.di_nlink == 0) {
1071                 /*
1072                  * We're dropping the last link to this file.
1073                  * Move the on-disk inode to the AGI unlinked list.
1074                  * From xfs_inactive() we will pull the inode from
1075                  * the list and free it.
1076                  */
1077                 error = xfs_iunlink(tp, ip);
1078         }
1079         return error;
1080 }
1081
1082 /*
1083  * This gets called when the inode's version needs to be changed from 1 to 2.
1084  * Currently this happens when the nlink field overflows the old 16-bit value
1085  * or when chproj is called to change the project for the first time.
1086  * As a side effect the superblock version will also get rev'd
1087  * to contain the NLINK bit.
1088  */
1089 void
1090 xfs_bump_ino_vers2(
1091         xfs_trans_t     *tp,
1092         xfs_inode_t     *ip)
1093 {
1094         xfs_mount_t     *mp;
1095
1096         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL));
1097         ASSERT(ip->i_d.di_version == 1);
1098
1099         ip->i_d.di_version = 2;
1100         ip->i_d.di_onlink = 0;
1101         memset(&(ip->i_d.di_pad[0]), 0, sizeof(ip->i_d.di_pad));
1102         mp = tp->t_mountp;
1103         if (!xfs_sb_version_hasnlink(&mp->m_sb)) {
1104                 spin_lock(&mp->m_sb_lock);
1105                 if (!xfs_sb_version_hasnlink(&mp->m_sb)) {
1106                         xfs_sb_version_addnlink(&mp->m_sb);
1107                         spin_unlock(&mp->m_sb_lock);
1108                         xfs_mod_sb(tp, XFS_SB_VERSIONNUM);
1109                 } else {
1110                         spin_unlock(&mp->m_sb_lock);
1111                 }
1112         }
1113         /* Caller must log the inode */
1114 }
1115
1116 /*
1117  * Increment the link count on an inode & log the change.
1118  */
1119 int
1120 xfs_bumplink(
1121         xfs_trans_t *tp,
1122         xfs_inode_t *ip)
1123 {
1124         xfs_trans_ichgtime(tp, ip, XFS_ICHGTIME_CHG);
1125
1126         ASSERT(ip->i_d.di_nlink > 0);
1127         ip->i_d.di_nlink++;
1128         inc_nlink(VFS_I(ip));
1129         if ((ip->i_d.di_version == 1) &&
1130             (ip->i_d.di_nlink > XFS_MAXLINK_1)) {
1131                 /*
1132                  * The inode has increased its number of links beyond
1133                  * what can fit in an old format inode.  It now needs
1134                  * to be converted to a version 2 inode with a 32 bit
1135                  * link count.  If this is the first inode in the file
1136                  * system to do this, then we need to bump the superblock
1137                  * version number as well.
1138                  */
1139                 xfs_bump_ino_vers2(tp, ip);
1140         }
1141
1142         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
1143         return 0;
1144 }
1145
1146 int
1147 xfs_create(
1148         xfs_inode_t             *dp,
1149         struct xfs_name         *name,
1150         umode_t                 mode,
1151         xfs_dev_t               rdev,
1152         xfs_inode_t             **ipp)
1153 {
1154         int                     is_dir = S_ISDIR(mode);
1155         struct xfs_mount        *mp = dp->i_mount;
1156         struct xfs_inode        *ip = NULL;
1157         struct xfs_trans        *tp = NULL;
1158         int                     error;
1159         xfs_bmap_free_t         free_list;
1160         xfs_fsblock_t           first_block;
1161         bool                    unlock_dp_on_error = false;
1162         uint                    cancel_flags;
1163         int                     committed;
1164         prid_t                  prid;
1165         struct xfs_dquot        *udqp = NULL;
1166         struct xfs_dquot        *gdqp = NULL;
1167         struct xfs_dquot        *pdqp = NULL;
1168         struct xfs_trans_res    tres;
1169         uint                    resblks;
1170
1171         trace_xfs_create(dp, name);
1172
1173         if (XFS_FORCED_SHUTDOWN(mp))
1174                 return XFS_ERROR(EIO);
1175
1176         if (dp->i_d.di_flags & XFS_DIFLAG_PROJINHERIT)
1177                 prid = xfs_get_projid(dp);
1178         else
1179                 prid = XFS_PROJID_DEFAULT;
1180
1181         /*
1182          * Make sure that we have allocated dquot(s) on disk.
1183          */
1184         error = xfs_qm_vop_dqalloc(dp, xfs_kuid_to_uid(current_fsuid()),
1185                                         xfs_kgid_to_gid(current_fsgid()), prid,
1186                                         XFS_QMOPT_QUOTALL | XFS_QMOPT_INHERIT,
1187                                         &udqp, &gdqp, &pdqp);
1188         if (error)
1189                 return error;
1190
1191         if (is_dir) {
1192                 rdev = 0;
1193                 resblks = XFS_MKDIR_SPACE_RES(mp, name->len);
1194                 tres.tr_logres = M_RES(mp)->tr_mkdir.tr_logres;
1195                 tres.tr_logcount = XFS_MKDIR_LOG_COUNT;
1196                 tp = xfs_trans_alloc(mp, XFS_TRANS_MKDIR);
1197         } else {
1198                 resblks = XFS_CREATE_SPACE_RES(mp, name->len);
1199                 tres.tr_logres = M_RES(mp)->tr_create.tr_logres;
1200                 tres.tr_logcount = XFS_CREATE_LOG_COUNT;
1201                 tp = xfs_trans_alloc(mp, XFS_TRANS_CREATE);
1202         }
1203
1204         cancel_flags = XFS_TRANS_RELEASE_LOG_RES;
1205
1206         /*
1207          * Initially assume that the file does not exist and
1208          * reserve the resources for that case.  If that is not
1209          * the case we'll drop the one we have and get a more
1210          * appropriate transaction later.
1211          */
1212         tres.tr_logflags = XFS_TRANS_PERM_LOG_RES;
1213         error = xfs_trans_reserve(tp, &tres, resblks, 0);
1214         if (error == ENOSPC) {
1215                 /* flush outstanding delalloc blocks and retry */
1216                 xfs_flush_inodes(mp);
1217                 error = xfs_trans_reserve(tp, &tres, resblks, 0);
1218         }
1219         if (error == ENOSPC) {
1220                 /* No space at all so try a "no-allocation" reservation */
1221                 resblks = 0;
1222                 error = xfs_trans_reserve(tp, &tres, 0, 0);
1223         }
1224         if (error) {
1225                 cancel_flags = 0;
1226                 goto out_trans_cancel;
1227         }
1228
1229         xfs_ilock(dp, XFS_ILOCK_EXCL | XFS_ILOCK_PARENT);
1230         unlock_dp_on_error = true;
1231
1232         xfs_bmap_init(&free_list, &first_block);
1233
1234         /*
1235          * Reserve disk quota and the inode.
1236          */
1237         error = xfs_trans_reserve_quota(tp, mp, udqp, gdqp,
1238                                                 pdqp, resblks, 1, 0);
1239         if (error)
1240                 goto out_trans_cancel;
1241
1242         error = xfs_dir_canenter(tp, dp, name, resblks);
1243         if (error)
1244                 goto out_trans_cancel;
1245
1246         /*
1247          * A newly created regular or special file just has one directory
1248          * entry pointing to them, but a directory also the "." entry
1249          * pointing to itself.
1250          */
1251         error = xfs_dir_ialloc(&tp, dp, mode, is_dir ? 2 : 1, rdev,
1252                                prid, resblks > 0, &ip, &committed);
1253         if (error) {
1254                 if (error == ENOSPC)
1255                         goto out_trans_cancel;
1256                 goto out_trans_abort;
1257         }
1258
1259         /*
1260          * Now we join the directory inode to the transaction.  We do not do it
1261          * earlier because xfs_dir_ialloc might commit the previous transaction
1262          * (and release all the locks).  An error from here on will result in
1263          * the transaction cancel unlocking dp so don't do it explicitly in the
1264          * error path.
1265          */
1266         xfs_trans_ijoin(tp, dp, XFS_ILOCK_EXCL);
1267         unlock_dp_on_error = false;
1268
1269         error = xfs_dir_createname(tp, dp, name, ip->i_ino,
1270                                         &first_block, &free_list, resblks ?
1271                                         resblks - XFS_IALLOC_SPACE_RES(mp) : 0);
1272         if (error) {
1273                 ASSERT(error != ENOSPC);
1274                 goto out_trans_abort;
1275         }
1276         xfs_trans_ichgtime(tp, dp, XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
1277         xfs_trans_log_inode(tp, dp, XFS_ILOG_CORE);
1278
1279         if (is_dir) {
1280                 error = xfs_dir_init(tp, ip, dp);
1281                 if (error)
1282                         goto out_bmap_cancel;
1283
1284                 error = xfs_bumplink(tp, dp);
1285                 if (error)
1286                         goto out_bmap_cancel;
1287         }
1288
1289         /*
1290          * If this is a synchronous mount, make sure that the
1291          * create transaction goes to disk before returning to
1292          * the user.
1293          */
1294         if (mp->m_flags & (XFS_MOUNT_WSYNC|XFS_MOUNT_DIRSYNC))
1295                 xfs_trans_set_sync(tp);
1296
1297         /*
1298          * Attach the dquot(s) to the inodes and modify them incore.
1299          * These ids of the inode couldn't have changed since the new
1300          * inode has been locked ever since it was created.
1301          */
1302         xfs_qm_vop_create_dqattach(tp, ip, udqp, gdqp, pdqp);
1303
1304         error = xfs_bmap_finish(&tp, &free_list, &committed);
1305         if (error)
1306                 goto out_bmap_cancel;
1307
1308         error = xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
1309         if (error)
1310                 goto out_release_inode;
1311
1312         xfs_qm_dqrele(udqp);
1313         xfs_qm_dqrele(gdqp);
1314         xfs_qm_dqrele(pdqp);
1315
1316         *ipp = ip;
1317         return 0;
1318
1319  out_bmap_cancel:
1320         xfs_bmap_cancel(&free_list);
1321  out_trans_abort:
1322         cancel_flags |= XFS_TRANS_ABORT;
1323  out_trans_cancel:
1324         xfs_trans_cancel(tp, cancel_flags);
1325  out_release_inode:
1326         /*
1327          * Wait until after the current transaction is aborted to
1328          * release the inode.  This prevents recursive transactions
1329          * and deadlocks from xfs_inactive.
1330          */
1331         if (ip)
1332                 IRELE(ip);
1333
1334         xfs_qm_dqrele(udqp);
1335         xfs_qm_dqrele(gdqp);
1336         xfs_qm_dqrele(pdqp);
1337
1338         if (unlock_dp_on_error)
1339                 xfs_iunlock(dp, XFS_ILOCK_EXCL);
1340         return error;
1341 }
1342
1343 int
1344 xfs_link(
1345         xfs_inode_t             *tdp,
1346         xfs_inode_t             *sip,
1347         struct xfs_name         *target_name)
1348 {
1349         xfs_mount_t             *mp = tdp->i_mount;
1350         xfs_trans_t             *tp;
1351         int                     error;
1352         xfs_bmap_free_t         free_list;
1353         xfs_fsblock_t           first_block;
1354         int                     cancel_flags;
1355         int                     committed;
1356         int                     resblks;
1357
1358         trace_xfs_link(tdp, target_name);
1359
1360         ASSERT(!S_ISDIR(sip->i_d.di_mode));
1361
1362         if (XFS_FORCED_SHUTDOWN(mp))
1363                 return XFS_ERROR(EIO);
1364
1365         error = xfs_qm_dqattach(sip, 0);
1366         if (error)
1367                 goto std_return;
1368
1369         error = xfs_qm_dqattach(tdp, 0);
1370         if (error)
1371                 goto std_return;
1372
1373         tp = xfs_trans_alloc(mp, XFS_TRANS_LINK);
1374         cancel_flags = XFS_TRANS_RELEASE_LOG_RES;
1375         resblks = XFS_LINK_SPACE_RES(mp, target_name->len);
1376         error = xfs_trans_reserve(tp, &M_RES(mp)->tr_link, resblks, 0);
1377         if (error == ENOSPC) {
1378                 resblks = 0;
1379                 error = xfs_trans_reserve(tp, &M_RES(mp)->tr_link, 0, 0);
1380         }
1381         if (error) {
1382                 cancel_flags = 0;
1383                 goto error_return;
1384         }
1385
1386         xfs_lock_two_inodes(sip, tdp, XFS_ILOCK_EXCL);
1387
1388         xfs_trans_ijoin(tp, sip, XFS_ILOCK_EXCL);
1389         xfs_trans_ijoin(tp, tdp, XFS_ILOCK_EXCL);
1390
1391         /*
1392          * If we are using project inheritance, we only allow hard link
1393          * creation in our tree when the project IDs are the same; else
1394          * the tree quota mechanism could be circumvented.
1395          */
1396         if (unlikely((tdp->i_d.di_flags & XFS_DIFLAG_PROJINHERIT) &&
1397                      (xfs_get_projid(tdp) != xfs_get_projid(sip)))) {
1398                 error = XFS_ERROR(EXDEV);
1399                 goto error_return;
1400         }
1401
1402         error = xfs_dir_canenter(tp, tdp, target_name, resblks);
1403         if (error)
1404                 goto error_return;
1405
1406         xfs_bmap_init(&free_list, &first_block);
1407
1408         error = xfs_dir_createname(tp, tdp, target_name, sip->i_ino,
1409                                         &first_block, &free_list, resblks);
1410         if (error)
1411                 goto abort_return;
1412         xfs_trans_ichgtime(tp, tdp, XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
1413         xfs_trans_log_inode(tp, tdp, XFS_ILOG_CORE);
1414
1415         error = xfs_bumplink(tp, sip);
1416         if (error)
1417                 goto abort_return;
1418
1419         /*
1420          * If this is a synchronous mount, make sure that the
1421          * link transaction goes to disk before returning to
1422          * the user.
1423          */
1424         if (mp->m_flags & (XFS_MOUNT_WSYNC|XFS_MOUNT_DIRSYNC)) {
1425                 xfs_trans_set_sync(tp);
1426         }
1427
1428         error = xfs_bmap_finish (&tp, &free_list, &committed);
1429         if (error) {
1430                 xfs_bmap_cancel(&free_list);
1431                 goto abort_return;
1432         }
1433
1434         return xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
1435
1436  abort_return:
1437         cancel_flags |= XFS_TRANS_ABORT;
1438  error_return:
1439         xfs_trans_cancel(tp, cancel_flags);
1440  std_return:
1441         return error;
1442 }
1443
1444 /*
1445  * Free up the underlying blocks past new_size.  The new size must be smaller
1446  * than the current size.  This routine can be used both for the attribute and
1447  * data fork, and does not modify the inode size, which is left to the caller.
1448  *
1449  * The transaction passed to this routine must have made a permanent log
1450  * reservation of at least XFS_ITRUNCATE_LOG_RES.  This routine may commit the
1451  * given transaction and start new ones, so make sure everything involved in
1452  * the transaction is tidy before calling here.  Some transaction will be
1453  * returned to the caller to be committed.  The incoming transaction must
1454  * already include the inode, and both inode locks must be held exclusively.
1455  * The inode must also be "held" within the transaction.  On return the inode
1456  * will be "held" within the returned transaction.  This routine does NOT
1457  * require any disk space to be reserved for it within the transaction.
1458  *
1459  * If we get an error, we must return with the inode locked and linked into the
1460  * current transaction. This keeps things simple for the higher level code,
1461  * because it always knows that the inode is locked and held in the transaction
1462  * that returns to it whether errors occur or not.  We don't mark the inode
1463  * dirty on error so that transactions can be easily aborted if possible.
1464  */
1465 int
1466 xfs_itruncate_extents(
1467         struct xfs_trans        **tpp,
1468         struct xfs_inode        *ip,
1469         int                     whichfork,
1470         xfs_fsize_t             new_size)
1471 {
1472         struct xfs_mount        *mp = ip->i_mount;
1473         struct xfs_trans        *tp = *tpp;
1474         struct xfs_trans        *ntp;
1475         xfs_bmap_free_t         free_list;
1476         xfs_fsblock_t           first_block;
1477         xfs_fileoff_t           first_unmap_block;
1478         xfs_fileoff_t           last_block;
1479         xfs_filblks_t           unmap_len;
1480         int                     committed;
1481         int                     error = 0;
1482         int                     done = 0;
1483
1484         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL));
1485         ASSERT(!atomic_read(&VFS_I(ip)->i_count) ||
1486                xfs_isilocked(ip, XFS_IOLOCK_EXCL));
1487         ASSERT(new_size <= XFS_ISIZE(ip));
1488         ASSERT(tp->t_flags & XFS_TRANS_PERM_LOG_RES);
1489         ASSERT(ip->i_itemp != NULL);
1490         ASSERT(ip->i_itemp->ili_lock_flags == 0);
1491         ASSERT(!XFS_NOT_DQATTACHED(mp, ip));
1492
1493         trace_xfs_itruncate_extents_start(ip, new_size);
1494
1495         /*
1496          * Since it is possible for space to become allocated beyond
1497          * the end of the file (in a crash where the space is allocated
1498          * but the inode size is not yet updated), simply remove any
1499          * blocks which show up between the new EOF and the maximum
1500          * possible file size.  If the first block to be removed is
1501          * beyond the maximum file size (ie it is the same as last_block),
1502          * then there is nothing to do.
1503          */
1504         first_unmap_block = XFS_B_TO_FSB(mp, (xfs_ufsize_t)new_size);
1505         last_block = XFS_B_TO_FSB(mp, mp->m_super->s_maxbytes);
1506         if (first_unmap_block == last_block)
1507                 return 0;
1508
1509         ASSERT(first_unmap_block < last_block);
1510         unmap_len = last_block - first_unmap_block + 1;
1511         while (!done) {
1512                 xfs_bmap_init(&free_list, &first_block);
1513                 error = xfs_bunmapi(tp, ip,
1514                                     first_unmap_block, unmap_len,
1515                                     xfs_bmapi_aflag(whichfork),
1516                                     XFS_ITRUNC_MAX_EXTENTS,
1517                                     &first_block, &free_list,
1518                                     &done);
1519                 if (error)
1520                         goto out_bmap_cancel;
1521
1522                 /*
1523                  * Duplicate the transaction that has the permanent
1524                  * reservation and commit the old transaction.
1525                  */
1526                 error = xfs_bmap_finish(&tp, &free_list, &committed);
1527                 if (committed)
1528                         xfs_trans_ijoin(tp, ip, 0);
1529                 if (error)
1530                         goto out_bmap_cancel;
1531
1532                 if (committed) {
1533                         /*
1534                          * Mark the inode dirty so it will be logged and
1535                          * moved forward in the log as part of every commit.
1536                          */
1537                         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
1538                 }
1539
1540                 ntp = xfs_trans_dup(tp);
1541                 error = xfs_trans_commit(tp, 0);
1542                 tp = ntp;
1543
1544                 xfs_trans_ijoin(tp, ip, 0);
1545
1546                 if (error)
1547                         goto out;
1548
1549                 /*
1550                  * Transaction commit worked ok so we can drop the extra ticket
1551                  * reference that we gained in xfs_trans_dup()
1552                  */
1553                 xfs_log_ticket_put(tp->t_ticket);
1554                 error = xfs_trans_reserve(tp, &M_RES(mp)->tr_itruncate, 0, 0);
1555                 if (error)
1556                         goto out;
1557         }
1558
1559         /*
1560          * Always re-log the inode so that our permanent transaction can keep
1561          * on rolling it forward in the log.
1562          */
1563         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
1564
1565         trace_xfs_itruncate_extents_end(ip, new_size);
1566
1567 out:
1568         *tpp = tp;
1569         return error;
1570 out_bmap_cancel:
1571         /*
1572          * If the bunmapi call encounters an error, return to the caller where
1573          * the transaction can be properly aborted.  We just need to make sure
1574          * we're not holding any resources that we were not when we came in.
1575          */
1576         xfs_bmap_cancel(&free_list);
1577         goto out;
1578 }
1579
1580 int
1581 xfs_release(
1582         xfs_inode_t     *ip)
1583 {
1584         xfs_mount_t     *mp = ip->i_mount;
1585         int             error;
1586
1587         if (!S_ISREG(ip->i_d.di_mode) || (ip->i_d.di_mode == 0))
1588                 return 0;
1589
1590         /* If this is a read-only mount, don't do this (would generate I/O) */
1591         if (mp->m_flags & XFS_MOUNT_RDONLY)
1592                 return 0;
1593
1594         if (!XFS_FORCED_SHUTDOWN(mp)) {
1595                 int truncated;
1596
1597                 /*
1598                  * If we are using filestreams, and we have an unlinked
1599                  * file that we are processing the last close on, then nothing
1600                  * will be able to reopen and write to this file. Purge this
1601                  * inode from the filestreams cache so that it doesn't delay
1602                  * teardown of the inode.
1603                  */
1604                 if ((ip->i_d.di_nlink == 0) && xfs_inode_is_filestream(ip))
1605                         xfs_filestream_deassociate(ip);
1606
1607                 /*
1608                  * If we previously truncated this file and removed old data
1609                  * in the process, we want to initiate "early" writeout on
1610                  * the last close.  This is an attempt to combat the notorious
1611                  * NULL files problem which is particularly noticeable from a
1612                  * truncate down, buffered (re-)write (delalloc), followed by
1613                  * a crash.  What we are effectively doing here is
1614                  * significantly reducing the time window where we'd otherwise
1615                  * be exposed to that problem.
1616                  */
1617                 truncated = xfs_iflags_test_and_clear(ip, XFS_ITRUNCATED);
1618                 if (truncated) {
1619                         xfs_iflags_clear(ip, XFS_IDIRTY_RELEASE);
1620                         if (VN_DIRTY(VFS_I(ip)) && ip->i_delayed_blks > 0) {
1621                                 error = -filemap_flush(VFS_I(ip)->i_mapping);
1622                                 if (error)
1623                                         return error;
1624                         }
1625                 }
1626         }
1627
1628         if (ip->i_d.di_nlink == 0)
1629                 return 0;
1630
1631         if (xfs_can_free_eofblocks(ip, false)) {
1632
1633                 /*
1634                  * If we can't get the iolock just skip truncating the blocks
1635                  * past EOF because we could deadlock with the mmap_sem
1636                  * otherwise.  We'll get another chance to drop them once the
1637                  * last reference to the inode is dropped, so we'll never leak
1638                  * blocks permanently.
1639                  *
1640                  * Further, check if the inode is being opened, written and
1641                  * closed frequently and we have delayed allocation blocks
1642                  * outstanding (e.g. streaming writes from the NFS server),
1643                  * truncating the blocks past EOF will cause fragmentation to
1644                  * occur.
1645                  *
1646                  * In this case don't do the truncation, either, but we have to
1647                  * be careful how we detect this case. Blocks beyond EOF show
1648                  * up as i_delayed_blks even when the inode is clean, so we
1649                  * need to truncate them away first before checking for a dirty
1650                  * release. Hence on the first dirty close we will still remove
1651                  * the speculative allocation, but after that we will leave it
1652                  * in place.
1653                  */
1654                 if (xfs_iflags_test(ip, XFS_IDIRTY_RELEASE))
1655                         return 0;
1656
1657                 error = xfs_free_eofblocks(mp, ip, true);
1658                 if (error && error != EAGAIN)
1659                         return error;
1660
1661                 /* delalloc blocks after truncation means it really is dirty */
1662                 if (ip->i_delayed_blks)
1663                         xfs_iflags_set(ip, XFS_IDIRTY_RELEASE);
1664         }
1665         return 0;
1666 }
1667
1668 /*
1669  * xfs_inactive_truncate
1670  *
1671  * Called to perform a truncate when an inode becomes unlinked.
1672  */
1673 STATIC int
1674 xfs_inactive_truncate(
1675         struct xfs_inode *ip)
1676 {
1677         struct xfs_mount        *mp = ip->i_mount;
1678         struct xfs_trans        *tp;
1679         int                     error;
1680
1681         tp = xfs_trans_alloc(mp, XFS_TRANS_INACTIVE);
1682         error = xfs_trans_reserve(tp, &M_RES(mp)->tr_itruncate, 0, 0);
1683         if (error) {
1684                 ASSERT(XFS_FORCED_SHUTDOWN(mp));
1685                 xfs_trans_cancel(tp, 0);
1686                 return error;
1687         }
1688
1689         xfs_ilock(ip, XFS_ILOCK_EXCL);
1690         xfs_trans_ijoin(tp, ip, 0);
1691
1692         /*
1693          * Log the inode size first to prevent stale data exposure in the event
1694          * of a system crash before the truncate completes. See the related
1695          * comment in xfs_setattr_size() for details.
1696          */
1697         ip->i_d.di_size = 0;
1698         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
1699
1700         error = xfs_itruncate_extents(&tp, ip, XFS_DATA_FORK, 0);
1701         if (error)
1702                 goto error_trans_cancel;
1703
1704         ASSERT(ip->i_d.di_nextents == 0);
1705
1706         error = xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
1707         if (error)
1708                 goto error_unlock;
1709
1710         xfs_iunlock(ip, XFS_ILOCK_EXCL);
1711         return 0;
1712
1713 error_trans_cancel:
1714         xfs_trans_cancel(tp, XFS_TRANS_RELEASE_LOG_RES | XFS_TRANS_ABORT);
1715 error_unlock:
1716         xfs_iunlock(ip, XFS_ILOCK_EXCL);
1717         return error;
1718 }
1719
1720 /*
1721  * xfs_inactive_ifree()
1722  *
1723  * Perform the inode free when an inode is unlinked.
1724  */
1725 STATIC int
1726 xfs_inactive_ifree(
1727         struct xfs_inode *ip)
1728 {
1729         xfs_bmap_free_t         free_list;
1730         xfs_fsblock_t           first_block;
1731         int                     committed;
1732         struct xfs_mount        *mp = ip->i_mount;
1733         struct xfs_trans        *tp;
1734         int                     error;
1735
1736         tp = xfs_trans_alloc(mp, XFS_TRANS_INACTIVE);
1737         error = xfs_trans_reserve(tp, &M_RES(mp)->tr_ifree, 0, 0);
1738         if (error) {
1739                 ASSERT(XFS_FORCED_SHUTDOWN(mp));
1740                 xfs_trans_cancel(tp, XFS_TRANS_RELEASE_LOG_RES);
1741                 return error;
1742         }
1743
1744         xfs_ilock(ip, XFS_ILOCK_EXCL);
1745         xfs_trans_ijoin(tp, ip, 0);
1746
1747         xfs_bmap_init(&free_list, &first_block);
1748         error = xfs_ifree(tp, ip, &free_list);
1749         if (error) {
1750                 /*
1751                  * If we fail to free the inode, shut down.  The cancel
1752                  * might do that, we need to make sure.  Otherwise the
1753                  * inode might be lost for a long time or forever.
1754                  */
1755                 if (!XFS_FORCED_SHUTDOWN(mp)) {
1756                         xfs_notice(mp, "%s: xfs_ifree returned error %d",
1757                                 __func__, error);
1758                         xfs_force_shutdown(mp, SHUTDOWN_META_IO_ERROR);
1759                 }
1760                 xfs_trans_cancel(tp, XFS_TRANS_RELEASE_LOG_RES|XFS_TRANS_ABORT);
1761                 xfs_iunlock(ip, XFS_ILOCK_EXCL);
1762                 return error;
1763         }
1764
1765         /*
1766          * Credit the quota account(s). The inode is gone.
1767          */
1768         xfs_trans_mod_dquot_byino(tp, ip, XFS_TRANS_DQ_ICOUNT, -1);
1769
1770         /*
1771          * Just ignore errors at this point.  There is nothing we can
1772          * do except to try to keep going. Make sure it's not a silent
1773          * error.
1774          */
1775         error = xfs_bmap_finish(&tp,  &free_list, &committed);
1776         if (error)
1777                 xfs_notice(mp, "%s: xfs_bmap_finish returned error %d",
1778                         __func__, error);
1779         error = xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
1780         if (error)
1781                 xfs_notice(mp, "%s: xfs_trans_commit returned error %d",
1782                         __func__, error);
1783
1784         xfs_iunlock(ip, XFS_ILOCK_EXCL);
1785         return 0;
1786 }
1787
1788 /*
1789  * xfs_inactive
1790  *
1791  * This is called when the vnode reference count for the vnode
1792  * goes to zero.  If the file has been unlinked, then it must
1793  * now be truncated.  Also, we clear all of the read-ahead state
1794  * kept for the inode here since the file is now closed.
1795  */
1796 void
1797 xfs_inactive(
1798         xfs_inode_t     *ip)
1799 {
1800         struct xfs_mount        *mp;
1801         int                     error;
1802         int                     truncate = 0;
1803
1804         /*
1805          * If the inode is already free, then there can be nothing
1806          * to clean up here.
1807          */
1808         if (ip->i_d.di_mode == 0) {
1809                 ASSERT(ip->i_df.if_real_bytes == 0);
1810                 ASSERT(ip->i_df.if_broot_bytes == 0);
1811                 return;
1812         }
1813
1814         mp = ip->i_mount;
1815
1816         /* If this is a read-only mount, don't do this (would generate I/O) */
1817         if (mp->m_flags & XFS_MOUNT_RDONLY)
1818                 return;
1819
1820         if (ip->i_d.di_nlink != 0) {
1821                 /*
1822                  * force is true because we are evicting an inode from the
1823                  * cache. Post-eof blocks must be freed, lest we end up with
1824                  * broken free space accounting.
1825                  */
1826                 if (xfs_can_free_eofblocks(ip, true))
1827                         xfs_free_eofblocks(mp, ip, false);
1828
1829                 return;
1830         }
1831
1832         if (S_ISREG(ip->i_d.di_mode) &&
1833             (ip->i_d.di_size != 0 || XFS_ISIZE(ip) != 0 ||
1834              ip->i_d.di_nextents > 0 || ip->i_delayed_blks > 0))
1835                 truncate = 1;
1836
1837         error = xfs_qm_dqattach(ip, 0);
1838         if (error)
1839                 return;
1840
1841         if (S_ISLNK(ip->i_d.di_mode))
1842                 error = xfs_inactive_symlink(ip);
1843         else if (truncate)
1844                 error = xfs_inactive_truncate(ip);
1845         if (error)
1846                 return;
1847
1848         /*
1849          * If there are attributes associated with the file then blow them away
1850          * now.  The code calls a routine that recursively deconstructs the
1851          * attribute fork.  We need to just commit the current transaction
1852          * because we can't use it for xfs_attr_inactive().
1853          */
1854         if (ip->i_d.di_anextents > 0) {
1855                 ASSERT(ip->i_d.di_forkoff != 0);
1856
1857                 error = xfs_attr_inactive(ip);
1858                 if (error)
1859                         return;
1860         }
1861
1862         if (ip->i_afp)
1863                 xfs_idestroy_fork(ip, XFS_ATTR_FORK);
1864
1865         ASSERT(ip->i_d.di_anextents == 0);
1866
1867         /*
1868          * Free the inode.
1869          */
1870         error = xfs_inactive_ifree(ip);
1871         if (error)
1872                 return;
1873
1874         /*
1875          * Release the dquots held by inode, if any.
1876          */
1877         xfs_qm_dqdetach(ip);
1878 }
1879
1880 /*
1881  * This is called when the inode's link count goes to 0.
1882  * We place the on-disk inode on a list in the AGI.  It
1883  * will be pulled from this list when the inode is freed.
1884  */
1885 int
1886 xfs_iunlink(
1887         xfs_trans_t     *tp,
1888         xfs_inode_t     *ip)
1889 {
1890         xfs_mount_t     *mp;
1891         xfs_agi_t       *agi;
1892         xfs_dinode_t    *dip;
1893         xfs_buf_t       *agibp;
1894         xfs_buf_t       *ibp;
1895         xfs_agino_t     agino;
1896         short           bucket_index;
1897         int             offset;
1898         int             error;
1899
1900         ASSERT(ip->i_d.di_nlink == 0);
1901         ASSERT(ip->i_d.di_mode != 0);
1902
1903         mp = tp->t_mountp;
1904
1905         /*
1906          * Get the agi buffer first.  It ensures lock ordering
1907          * on the list.
1908          */
1909         error = xfs_read_agi(mp, tp, XFS_INO_TO_AGNO(mp, ip->i_ino), &agibp);
1910         if (error)
1911                 return error;
1912         agi = XFS_BUF_TO_AGI(agibp);
1913
1914         /*
1915          * Get the index into the agi hash table for the
1916          * list this inode will go on.
1917          */
1918         agino = XFS_INO_TO_AGINO(mp, ip->i_ino);
1919         ASSERT(agino != 0);
1920         bucket_index = agino % XFS_AGI_UNLINKED_BUCKETS;
1921         ASSERT(agi->agi_unlinked[bucket_index]);
1922         ASSERT(be32_to_cpu(agi->agi_unlinked[bucket_index]) != agino);
1923
1924         if (agi->agi_unlinked[bucket_index] != cpu_to_be32(NULLAGINO)) {
1925                 /*
1926                  * There is already another inode in the bucket we need
1927                  * to add ourselves to.  Add us at the front of the list.
1928                  * Here we put the head pointer into our next pointer,
1929                  * and then we fall through to point the head at us.
1930                  */
1931                 error = xfs_imap_to_bp(mp, tp, &ip->i_imap, &dip, &ibp,
1932                                        0, 0);
1933                 if (error)
1934                         return error;
1935
1936                 ASSERT(dip->di_next_unlinked == cpu_to_be32(NULLAGINO));
1937                 dip->di_next_unlinked = agi->agi_unlinked[bucket_index];
1938                 offset = ip->i_imap.im_boffset +
1939                         offsetof(xfs_dinode_t, di_next_unlinked);
1940
1941                 /* need to recalc the inode CRC if appropriate */
1942                 xfs_dinode_calc_crc(mp, dip);
1943
1944                 xfs_trans_inode_buf(tp, ibp);
1945                 xfs_trans_log_buf(tp, ibp, offset,
1946                                   (offset + sizeof(xfs_agino_t) - 1));
1947                 xfs_inobp_check(mp, ibp);
1948         }
1949
1950         /*
1951          * Point the bucket head pointer at the inode being inserted.
1952          */
1953         ASSERT(agino != 0);
1954         agi->agi_unlinked[bucket_index] = cpu_to_be32(agino);
1955         offset = offsetof(xfs_agi_t, agi_unlinked) +
1956                 (sizeof(xfs_agino_t) * bucket_index);
1957         xfs_trans_log_buf(tp, agibp, offset,
1958                           (offset + sizeof(xfs_agino_t) - 1));
1959         return 0;
1960 }
1961
1962 /*
1963  * Pull the on-disk inode from the AGI unlinked list.
1964  */
1965 STATIC int
1966 xfs_iunlink_remove(
1967         xfs_trans_t     *tp,
1968         xfs_inode_t     *ip)
1969 {
1970         xfs_ino_t       next_ino;
1971         xfs_mount_t     *mp;
1972         xfs_agi_t       *agi;
1973         xfs_dinode_t    *dip;
1974         xfs_buf_t       *agibp;
1975         xfs_buf_t       *ibp;
1976         xfs_agnumber_t  agno;
1977         xfs_agino_t     agino;
1978         xfs_agino_t     next_agino;
1979         xfs_buf_t       *last_ibp;
1980         xfs_dinode_t    *last_dip = NULL;
1981         short           bucket_index;
1982         int             offset, last_offset = 0;
1983         int             error;
1984
1985         mp = tp->t_mountp;
1986         agno = XFS_INO_TO_AGNO(mp, ip->i_ino);
1987
1988         /*
1989          * Get the agi buffer first.  It ensures lock ordering
1990          * on the list.
1991          */
1992         error = xfs_read_agi(mp, tp, agno, &agibp);
1993         if (error)
1994                 return error;
1995
1996         agi = XFS_BUF_TO_AGI(agibp);
1997
1998         /*
1999          * Get the index into the agi hash table for the
2000          * list this inode will go on.
2001          */
2002         agino = XFS_INO_TO_AGINO(mp, ip->i_ino);
2003         ASSERT(agino != 0);
2004         bucket_index = agino % XFS_AGI_UNLINKED_BUCKETS;
2005         ASSERT(agi->agi_unlinked[bucket_index] != cpu_to_be32(NULLAGINO));
2006         ASSERT(agi->agi_unlinked[bucket_index]);
2007
2008         if (be32_to_cpu(agi->agi_unlinked[bucket_index]) == agino) {
2009                 /*
2010                  * We're at the head of the list.  Get the inode's on-disk
2011                  * buffer to see if there is anyone after us on the list.
2012                  * Only modify our next pointer if it is not already NULLAGINO.
2013                  * This saves us the overhead of dealing with the buffer when
2014                  * there is no need to change it.
2015                  */
2016                 error = xfs_imap_to_bp(mp, tp, &ip->i_imap, &dip, &ibp,
2017                                        0, 0);
2018                 if (error) {
2019                         xfs_warn(mp, "%s: xfs_imap_to_bp returned error %d.",
2020                                 __func__, error);
2021                         return error;
2022                 }
2023                 next_agino = be32_to_cpu(dip->di_next_unlinked);
2024                 ASSERT(next_agino != 0);
2025                 if (next_agino != NULLAGINO) {
2026                         dip->di_next_unlinked = cpu_to_be32(NULLAGINO);
2027                         offset = ip->i_imap.im_boffset +
2028                                 offsetof(xfs_dinode_t, di_next_unlinked);
2029
2030                         /* need to recalc the inode CRC if appropriate */
2031                         xfs_dinode_calc_crc(mp, dip);
2032
2033                         xfs_trans_inode_buf(tp, ibp);
2034                         xfs_trans_log_buf(tp, ibp, offset,
2035                                           (offset + sizeof(xfs_agino_t) - 1));
2036                         xfs_inobp_check(mp, ibp);
2037                 } else {
2038                         xfs_trans_brelse(tp, ibp);
2039                 }
2040                 /*
2041                  * Point the bucket head pointer at the next inode.
2042                  */
2043                 ASSERT(next_agino != 0);
2044                 ASSERT(next_agino != agino);
2045                 agi->agi_unlinked[bucket_index] = cpu_to_be32(next_agino);
2046                 offset = offsetof(xfs_agi_t, agi_unlinked) +
2047                         (sizeof(xfs_agino_t) * bucket_index);
2048                 xfs_trans_log_buf(tp, agibp, offset,
2049                                   (offset + sizeof(xfs_agino_t) - 1));
2050         } else {
2051                 /*
2052                  * We need to search the list for the inode being freed.
2053                  */
2054                 next_agino = be32_to_cpu(agi->agi_unlinked[bucket_index]);
2055                 last_ibp = NULL;
2056                 while (next_agino != agino) {
2057                         struct xfs_imap imap;
2058
2059                         if (last_ibp)
2060                                 xfs_trans_brelse(tp, last_ibp);
2061
2062                         imap.im_blkno = 0;
2063                         next_ino = XFS_AGINO_TO_INO(mp, agno, next_agino);
2064
2065                         error = xfs_imap(mp, tp, next_ino, &imap, 0);
2066                         if (error) {
2067                                 xfs_warn(mp,
2068         "%s: xfs_imap returned error %d.",
2069                                          __func__, error);
2070                                 return error;
2071                         }
2072
2073                         error = xfs_imap_to_bp(mp, tp, &imap, &last_dip,
2074                                                &last_ibp, 0, 0);
2075                         if (error) {
2076                                 xfs_warn(mp,
2077         "%s: xfs_imap_to_bp returned error %d.",
2078                                         __func__, error);
2079                                 return error;
2080                         }
2081
2082                         last_offset = imap.im_boffset;
2083                         next_agino = be32_to_cpu(last_dip->di_next_unlinked);
2084                         ASSERT(next_agino != NULLAGINO);
2085                         ASSERT(next_agino != 0);
2086                 }
2087
2088                 /*
2089                  * Now last_ibp points to the buffer previous to us on the
2090                  * unlinked list.  Pull us from the list.
2091                  */
2092                 error = xfs_imap_to_bp(mp, tp, &ip->i_imap, &dip, &ibp,
2093                                        0, 0);
2094                 if (error) {
2095                         xfs_warn(mp, "%s: xfs_imap_to_bp(2) returned error %d.",
2096                                 __func__, error);
2097                         return error;
2098                 }
2099                 next_agino = be32_to_cpu(dip->di_next_unlinked);
2100                 ASSERT(next_agino != 0);
2101                 ASSERT(next_agino != agino);
2102                 if (next_agino != NULLAGINO) {
2103                         dip->di_next_unlinked = cpu_to_be32(NULLAGINO);
2104                         offset = ip->i_imap.im_boffset +
2105                                 offsetof(xfs_dinode_t, di_next_unlinked);
2106
2107                         /* need to recalc the inode CRC if appropriate */
2108                         xfs_dinode_calc_crc(mp, dip);
2109
2110                         xfs_trans_inode_buf(tp, ibp);
2111                         xfs_trans_log_buf(tp, ibp, offset,
2112                                           (offset + sizeof(xfs_agino_t) - 1));
2113                         xfs_inobp_check(mp, ibp);
2114                 } else {
2115                         xfs_trans_brelse(tp, ibp);
2116                 }
2117                 /*
2118                  * Point the previous inode on the list to the next inode.
2119                  */
2120                 last_dip->di_next_unlinked = cpu_to_be32(next_agino);
2121                 ASSERT(next_agino != 0);
2122                 offset = last_offset + offsetof(xfs_dinode_t, di_next_unlinked);
2123
2124                 /* need to recalc the inode CRC if appropriate */
2125                 xfs_dinode_calc_crc(mp, last_dip);
2126
2127                 xfs_trans_inode_buf(tp, last_ibp);
2128                 xfs_trans_log_buf(tp, last_ibp, offset,
2129                                   (offset + sizeof(xfs_agino_t) - 1));
2130                 xfs_inobp_check(mp, last_ibp);
2131         }
2132         return 0;
2133 }
2134
2135 /*
2136  * A big issue when freeing the inode cluster is that we _cannot_ skip any
2137  * inodes that are in memory - they all must be marked stale and attached to
2138  * the cluster buffer.
2139  */
2140 STATIC int
2141 xfs_ifree_cluster(
2142         xfs_inode_t     *free_ip,
2143         xfs_trans_t     *tp,
2144         xfs_ino_t       inum)
2145 {
2146         xfs_mount_t             *mp = free_ip->i_mount;
2147         int                     blks_per_cluster;
2148         int                     nbufs;
2149         int                     ninodes;
2150         int                     i, j;
2151         xfs_daddr_t             blkno;
2152         xfs_buf_t               *bp;
2153         xfs_inode_t             *ip;
2154         xfs_inode_log_item_t    *iip;
2155         xfs_log_item_t          *lip;
2156         struct xfs_perag        *pag;
2157
2158         pag = xfs_perag_get(mp, XFS_INO_TO_AGNO(mp, inum));
2159         if (mp->m_sb.sb_blocksize >= XFS_INODE_CLUSTER_SIZE(mp)) {
2160                 blks_per_cluster = 1;
2161                 ninodes = mp->m_sb.sb_inopblock;
2162                 nbufs = XFS_IALLOC_BLOCKS(mp);
2163         } else {
2164                 blks_per_cluster = XFS_INODE_CLUSTER_SIZE(mp) /
2165                                         mp->m_sb.sb_blocksize;
2166                 ninodes = blks_per_cluster * mp->m_sb.sb_inopblock;
2167                 nbufs = XFS_IALLOC_BLOCKS(mp) / blks_per_cluster;
2168         }
2169
2170         for (j = 0; j < nbufs; j++, inum += ninodes) {
2171                 blkno = XFS_AGB_TO_DADDR(mp, XFS_INO_TO_AGNO(mp, inum),
2172                                          XFS_INO_TO_AGBNO(mp, inum));
2173
2174                 /*
2175                  * We obtain and lock the backing buffer first in the process
2176                  * here, as we have to ensure that any dirty inode that we
2177                  * can't get the flush lock on is attached to the buffer.
2178                  * If we scan the in-memory inodes first, then buffer IO can
2179                  * complete before we get a lock on it, and hence we may fail
2180                  * to mark all the active inodes on the buffer stale.
2181                  */
2182                 bp = xfs_trans_get_buf(tp, mp->m_ddev_targp, blkno,
2183                                         mp->m_bsize * blks_per_cluster,
2184                                         XBF_UNMAPPED);
2185
2186                 if (!bp)
2187                         return ENOMEM;
2188
2189                 /*
2190                  * This buffer may not have been correctly initialised as we
2191                  * didn't read it from disk. That's not important because we are
2192                  * only using to mark the buffer as stale in the log, and to
2193                  * attach stale cached inodes on it. That means it will never be
2194                  * dispatched for IO. If it is, we want to know about it, and we
2195                  * want it to fail. We can acheive this by adding a write
2196                  * verifier to the buffer.
2197                  */
2198                  bp->b_ops = &xfs_inode_buf_ops;
2199
2200                 /*
2201                  * Walk the inodes already attached to the buffer and mark them
2202                  * stale. These will all have the flush locks held, so an
2203                  * in-memory inode walk can't lock them. By marking them all
2204                  * stale first, we will not attempt to lock them in the loop
2205                  * below as the XFS_ISTALE flag will be set.
2206                  */
2207                 lip = bp->b_fspriv;
2208                 while (lip) {
2209                         if (lip->li_type == XFS_LI_INODE) {
2210                                 iip = (xfs_inode_log_item_t *)lip;
2211                                 ASSERT(iip->ili_logged == 1);
2212                                 lip->li_cb = xfs_istale_done;
2213                                 xfs_trans_ail_copy_lsn(mp->m_ail,
2214                                                         &iip->ili_flush_lsn,
2215                                                         &iip->ili_item.li_lsn);
2216                                 xfs_iflags_set(iip->ili_inode, XFS_ISTALE);
2217                         }
2218                         lip = lip->li_bio_list;
2219                 }
2220
2221
2222                 /*
2223                  * For each inode in memory attempt to add it to the inode
2224                  * buffer and set it up for being staled on buffer IO
2225                  * completion.  This is safe as we've locked out tail pushing
2226                  * and flushing by locking the buffer.
2227                  *
2228                  * We have already marked every inode that was part of a
2229                  * transaction stale above, which means there is no point in
2230                  * even trying to lock them.
2231                  */
2232                 for (i = 0; i < ninodes; i++) {
2233 retry:
2234                         rcu_read_lock();
2235                         ip = radix_tree_lookup(&pag->pag_ici_root,
2236                                         XFS_INO_TO_AGINO(mp, (inum + i)));
2237
2238                         /* Inode not in memory, nothing to do */
2239                         if (!ip) {
2240                                 rcu_read_unlock();
2241                                 continue;
2242                         }
2243
2244                         /*
2245                          * because this is an RCU protected lookup, we could
2246                          * find a recently freed or even reallocated inode
2247                          * during the lookup. We need to check under the
2248                          * i_flags_lock for a valid inode here. Skip it if it
2249                          * is not valid, the wrong inode or stale.
2250                          */
2251                         spin_lock(&ip->i_flags_lock);
2252                         if (ip->i_ino != inum + i ||
2253                             __xfs_iflags_test(ip, XFS_ISTALE)) {
2254                                 spin_unlock(&ip->i_flags_lock);
2255                                 rcu_read_unlock();
2256                                 continue;
2257                         }
2258                         spin_unlock(&ip->i_flags_lock);
2259
2260                         /*
2261                          * Don't try to lock/unlock the current inode, but we
2262                          * _cannot_ skip the other inodes that we did not find
2263                          * in the list attached to the buffer and are not
2264                          * already marked stale. If we can't lock it, back off
2265                          * and retry.
2266                          */
2267                         if (ip != free_ip &&
2268                             !xfs_ilock_nowait(ip, XFS_ILOCK_EXCL)) {
2269                                 rcu_read_unlock();
2270                                 delay(1);
2271                                 goto retry;
2272                         }
2273                         rcu_read_unlock();
2274
2275                         xfs_iflock(ip);
2276                         xfs_iflags_set(ip, XFS_ISTALE);
2277
2278                         /*
2279                          * we don't need to attach clean inodes or those only
2280                          * with unlogged changes (which we throw away, anyway).
2281                          */
2282                         iip = ip->i_itemp;
2283                         if (!iip || xfs_inode_clean(ip)) {
2284                                 ASSERT(ip != free_ip);
2285                                 xfs_ifunlock(ip);
2286                                 xfs_iunlock(ip, XFS_ILOCK_EXCL);
2287                                 continue;
2288                         }
2289
2290                         iip->ili_last_fields = iip->ili_fields;
2291                         iip->ili_fields = 0;
2292                         iip->ili_logged = 1;
2293                         xfs_trans_ail_copy_lsn(mp->m_ail, &iip->ili_flush_lsn,
2294                                                 &iip->ili_item.li_lsn);
2295
2296                         xfs_buf_attach_iodone(bp, xfs_istale_done,
2297                                                   &iip->ili_item);
2298
2299                         if (ip != free_ip)
2300                                 xfs_iunlock(ip, XFS_ILOCK_EXCL);
2301                 }
2302
2303                 xfs_trans_stale_inode_buf(tp, bp);
2304                 xfs_trans_binval(tp, bp);
2305         }
2306
2307         xfs_perag_put(pag);
2308         return 0;
2309 }
2310
2311 /*
2312  * This is called to return an inode to the inode free list.
2313  * The inode should already be truncated to 0 length and have
2314  * no pages associated with it.  This routine also assumes that
2315  * the inode is already a part of the transaction.
2316  *
2317  * The on-disk copy of the inode will have been added to the list
2318  * of unlinked inodes in the AGI. We need to remove the inode from
2319  * that list atomically with respect to freeing it here.
2320  */
2321 int
2322 xfs_ifree(
2323         xfs_trans_t     *tp,
2324         xfs_inode_t     *ip,
2325         xfs_bmap_free_t *flist)
2326 {
2327         int                     error;
2328         int                     delete;
2329         xfs_ino_t               first_ino;
2330
2331         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL));
2332         ASSERT(ip->i_d.di_nlink == 0);
2333         ASSERT(ip->i_d.di_nextents == 0);
2334         ASSERT(ip->i_d.di_anextents == 0);
2335         ASSERT(ip->i_d.di_size == 0 || !S_ISREG(ip->i_d.di_mode));
2336         ASSERT(ip->i_d.di_nblocks == 0);
2337
2338         /*
2339          * Pull the on-disk inode from the AGI unlinked list.
2340          */
2341         error = xfs_iunlink_remove(tp, ip);
2342         if (error)
2343                 return error;
2344
2345         error = xfs_difree(tp, ip->i_ino, flist, &delete, &first_ino);
2346         if (error)
2347                 return error;
2348
2349         ip->i_d.di_mode = 0;            /* mark incore inode as free */
2350         ip->i_d.di_flags = 0;
2351         ip->i_d.di_dmevmask = 0;
2352         ip->i_d.di_forkoff = 0;         /* mark the attr fork not in use */
2353         ip->i_d.di_format = XFS_DINODE_FMT_EXTENTS;
2354         ip->i_d.di_aformat = XFS_DINODE_FMT_EXTENTS;
2355         /*
2356          * Bump the generation count so no one will be confused
2357          * by reincarnations of this inode.
2358          */
2359         ip->i_d.di_gen++;
2360         xfs_trans_log_inode(tp, ip, XFS_ILOG_CORE);
2361
2362         if (delete)
2363                 error = xfs_ifree_cluster(ip, tp, first_ino);
2364
2365         return error;
2366 }
2367
2368 /*
2369  * This is called to unpin an inode.  The caller must have the inode locked
2370  * in at least shared mode so that the buffer cannot be subsequently pinned
2371  * once someone is waiting for it to be unpinned.
2372  */
2373 static void
2374 xfs_iunpin(
2375         struct xfs_inode        *ip)
2376 {
2377         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL|XFS_ILOCK_SHARED));
2378
2379         trace_xfs_inode_unpin_nowait(ip, _RET_IP_);
2380
2381         /* Give the log a push to start the unpinning I/O */
2382         xfs_log_force_lsn(ip->i_mount, ip->i_itemp->ili_last_lsn, 0);
2383
2384 }
2385
2386 static void
2387 __xfs_iunpin_wait(
2388         struct xfs_inode        *ip)
2389 {
2390         wait_queue_head_t *wq = bit_waitqueue(&ip->i_flags, __XFS_IPINNED_BIT);
2391         DEFINE_WAIT_BIT(wait, &ip->i_flags, __XFS_IPINNED_BIT);
2392
2393         xfs_iunpin(ip);
2394
2395         do {
2396                 prepare_to_wait(wq, &wait.wait, TASK_UNINTERRUPTIBLE);
2397                 if (xfs_ipincount(ip))
2398                         io_schedule();
2399         } while (xfs_ipincount(ip));
2400         finish_wait(wq, &wait.wait);
2401 }
2402
2403 void
2404 xfs_iunpin_wait(
2405         struct xfs_inode        *ip)
2406 {
2407         if (xfs_ipincount(ip))
2408                 __xfs_iunpin_wait(ip);
2409 }
2410
2411 int
2412 xfs_remove(
2413         xfs_inode_t             *dp,
2414         struct xfs_name         *name,
2415         xfs_inode_t             *ip)
2416 {
2417         xfs_mount_t             *mp = dp->i_mount;
2418         xfs_trans_t             *tp = NULL;
2419         int                     is_dir = S_ISDIR(ip->i_d.di_mode);
2420         int                     error = 0;
2421         xfs_bmap_free_t         free_list;
2422         xfs_fsblock_t           first_block;
2423         int                     cancel_flags;
2424         int                     committed;
2425         int                     link_zero;
2426         uint                    resblks;
2427         uint                    log_count;
2428
2429         trace_xfs_remove(dp, name);
2430
2431         if (XFS_FORCED_SHUTDOWN(mp))
2432                 return XFS_ERROR(EIO);
2433
2434         error = xfs_qm_dqattach(dp, 0);
2435         if (error)
2436                 goto std_return;
2437
2438         error = xfs_qm_dqattach(ip, 0);
2439         if (error)
2440                 goto std_return;
2441
2442         if (is_dir) {
2443                 tp = xfs_trans_alloc(mp, XFS_TRANS_RMDIR);
2444                 log_count = XFS_DEFAULT_LOG_COUNT;
2445         } else {
2446                 tp = xfs_trans_alloc(mp, XFS_TRANS_REMOVE);
2447                 log_count = XFS_REMOVE_LOG_COUNT;
2448         }
2449         cancel_flags = XFS_TRANS_RELEASE_LOG_RES;
2450
2451         /*
2452          * We try to get the real space reservation first,
2453          * allowing for directory btree deletion(s) implying
2454          * possible bmap insert(s).  If we can't get the space
2455          * reservation then we use 0 instead, and avoid the bmap
2456          * btree insert(s) in the directory code by, if the bmap
2457          * insert tries to happen, instead trimming the LAST
2458          * block from the directory.
2459          */
2460         resblks = XFS_REMOVE_SPACE_RES(mp);
2461         error = xfs_trans_reserve(tp, &M_RES(mp)->tr_remove, resblks, 0);
2462         if (error == ENOSPC) {
2463                 resblks = 0;
2464                 error = xfs_trans_reserve(tp, &M_RES(mp)->tr_remove, 0, 0);
2465         }
2466         if (error) {
2467                 ASSERT(error != ENOSPC);
2468                 cancel_flags = 0;
2469                 goto out_trans_cancel;
2470         }
2471
2472         xfs_lock_two_inodes(dp, ip, XFS_ILOCK_EXCL);
2473
2474         xfs_trans_ijoin(tp, dp, XFS_ILOCK_EXCL);
2475         xfs_trans_ijoin(tp, ip, XFS_ILOCK_EXCL);
2476
2477         /*
2478          * If we're removing a directory perform some additional validation.
2479          */
2480         if (is_dir) {
2481                 ASSERT(ip->i_d.di_nlink >= 2);
2482                 if (ip->i_d.di_nlink != 2) {
2483                         error = XFS_ERROR(ENOTEMPTY);
2484                         goto out_trans_cancel;
2485                 }
2486                 if (!xfs_dir_isempty(ip)) {
2487                         error = XFS_ERROR(ENOTEMPTY);
2488                         goto out_trans_cancel;
2489                 }
2490         }
2491
2492         xfs_bmap_init(&free_list, &first_block);
2493         error = xfs_dir_removename(tp, dp, name, ip->i_ino,
2494                                         &first_block, &free_list, resblks);
2495         if (error) {
2496                 ASSERT(error != ENOENT);
2497                 goto out_bmap_cancel;
2498         }
2499         xfs_trans_ichgtime(tp, dp, XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
2500
2501         if (is_dir) {
2502                 /*
2503                  * Drop the link from ip's "..".
2504                  */
2505                 error = xfs_droplink(tp, dp);
2506                 if (error)
2507                         goto out_bmap_cancel;
2508
2509                 /*
2510                  * Drop the "." link from ip to self.
2511                  */
2512                 error = xfs_droplink(tp, ip);
2513                 if (error)
2514                         goto out_bmap_cancel;
2515         } else {
2516                 /*
2517                  * When removing a non-directory we need to log the parent
2518                  * inode here.  For a directory this is done implicitly
2519                  * by the xfs_droplink call for the ".." entry.
2520                  */
2521                 xfs_trans_log_inode(tp, dp, XFS_ILOG_CORE);
2522         }
2523
2524         /*
2525          * Drop the link from dp to ip.
2526          */
2527         error = xfs_droplink(tp, ip);
2528         if (error)
2529                 goto out_bmap_cancel;
2530
2531         /*
2532          * Determine if this is the last link while
2533          * we are in the transaction.
2534          */
2535         link_zero = (ip->i_d.di_nlink == 0);
2536
2537         /*
2538          * If this is a synchronous mount, make sure that the
2539          * remove transaction goes to disk before returning to
2540          * the user.
2541          */
2542         if (mp->m_flags & (XFS_MOUNT_WSYNC|XFS_MOUNT_DIRSYNC))
2543                 xfs_trans_set_sync(tp);
2544
2545         error = xfs_bmap_finish(&tp, &free_list, &committed);
2546         if (error)
2547                 goto out_bmap_cancel;
2548
2549         error = xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
2550         if (error)
2551                 goto std_return;
2552
2553         /*
2554          * If we are using filestreams, kill the stream association.
2555          * If the file is still open it may get a new one but that
2556          * will get killed on last close in xfs_close() so we don't
2557          * have to worry about that.
2558          */
2559         if (!is_dir && link_zero && xfs_inode_is_filestream(ip))
2560                 xfs_filestream_deassociate(ip);
2561
2562         return 0;
2563
2564  out_bmap_cancel:
2565         xfs_bmap_cancel(&free_list);
2566         cancel_flags |= XFS_TRANS_ABORT;
2567  out_trans_cancel:
2568         xfs_trans_cancel(tp, cancel_flags);
2569  std_return:
2570         return error;
2571 }
2572
2573 /*
2574  * Enter all inodes for a rename transaction into a sorted array.
2575  */
2576 STATIC void
2577 xfs_sort_for_rename(
2578         xfs_inode_t     *dp1,   /* in: old (source) directory inode */
2579         xfs_inode_t     *dp2,   /* in: new (target) directory inode */
2580         xfs_inode_t     *ip1,   /* in: inode of old entry */
2581         xfs_inode_t     *ip2,   /* in: inode of new entry, if it
2582                                    already exists, NULL otherwise. */
2583         xfs_inode_t     **i_tab,/* out: array of inode returned, sorted */
2584         int             *num_inodes)  /* out: number of inodes in array */
2585 {
2586         xfs_inode_t             *temp;
2587         int                     i, j;
2588
2589         /*
2590          * i_tab contains a list of pointers to inodes.  We initialize
2591          * the table here & we'll sort it.  We will then use it to
2592          * order the acquisition of the inode locks.
2593          *
2594          * Note that the table may contain duplicates.  e.g., dp1 == dp2.
2595          */
2596         i_tab[0] = dp1;
2597         i_tab[1] = dp2;
2598         i_tab[2] = ip1;
2599         if (ip2) {
2600                 *num_inodes = 4;
2601                 i_tab[3] = ip2;
2602         } else {
2603                 *num_inodes = 3;
2604                 i_tab[3] = NULL;
2605         }
2606
2607         /*
2608          * Sort the elements via bubble sort.  (Remember, there are at
2609          * most 4 elements to sort, so this is adequate.)
2610          */
2611         for (i = 0; i < *num_inodes; i++) {
2612                 for (j = 1; j < *num_inodes; j++) {
2613                         if (i_tab[j]->i_ino < i_tab[j-1]->i_ino) {
2614                                 temp = i_tab[j];
2615                                 i_tab[j] = i_tab[j-1];
2616                                 i_tab[j-1] = temp;
2617                         }
2618                 }
2619         }
2620 }
2621
2622 /*
2623  * xfs_rename
2624  */
2625 int
2626 xfs_rename(
2627         xfs_inode_t     *src_dp,
2628         struct xfs_name *src_name,
2629         xfs_inode_t     *src_ip,
2630         xfs_inode_t     *target_dp,
2631         struct xfs_name *target_name,
2632         xfs_inode_t     *target_ip)
2633 {
2634         xfs_trans_t     *tp = NULL;
2635         xfs_mount_t     *mp = src_dp->i_mount;
2636         int             new_parent;             /* moving to a new dir */
2637         int             src_is_directory;       /* src_name is a directory */
2638         int             error;
2639         xfs_bmap_free_t free_list;
2640         xfs_fsblock_t   first_block;
2641         int             cancel_flags;
2642         int             committed;
2643         xfs_inode_t     *inodes[4];
2644         int             spaceres;
2645         int             num_inodes;
2646
2647         trace_xfs_rename(src_dp, target_dp, src_name, target_name);
2648
2649         new_parent = (src_dp != target_dp);
2650         src_is_directory = S_ISDIR(src_ip->i_d.di_mode);
2651
2652         xfs_sort_for_rename(src_dp, target_dp, src_ip, target_ip,
2653                                 inodes, &num_inodes);
2654
2655         xfs_bmap_init(&free_list, &first_block);
2656         tp = xfs_trans_alloc(mp, XFS_TRANS_RENAME);
2657         cancel_flags = XFS_TRANS_RELEASE_LOG_RES;
2658         spaceres = XFS_RENAME_SPACE_RES(mp, target_name->len);
2659         error = xfs_trans_reserve(tp, &M_RES(mp)->tr_rename, spaceres, 0);
2660         if (error == ENOSPC) {
2661                 spaceres = 0;
2662                 error = xfs_trans_reserve(tp, &M_RES(mp)->tr_rename, 0, 0);
2663         }
2664         if (error) {
2665                 xfs_trans_cancel(tp, 0);
2666                 goto std_return;
2667         }
2668
2669         /*
2670          * Attach the dquots to the inodes
2671          */
2672         error = xfs_qm_vop_rename_dqattach(inodes);
2673         if (error) {
2674                 xfs_trans_cancel(tp, cancel_flags);
2675                 goto std_return;
2676         }
2677
2678         /*
2679          * Lock all the participating inodes. Depending upon whether
2680          * the target_name exists in the target directory, and
2681          * whether the target directory is the same as the source
2682          * directory, we can lock from 2 to 4 inodes.
2683          */
2684         xfs_lock_inodes(inodes, num_inodes, XFS_ILOCK_EXCL);
2685
2686         /*
2687          * Join all the inodes to the transaction. From this point on,
2688          * we can rely on either trans_commit or trans_cancel to unlock
2689          * them.
2690          */
2691         xfs_trans_ijoin(tp, src_dp, XFS_ILOCK_EXCL);
2692         if (new_parent)
2693                 xfs_trans_ijoin(tp, target_dp, XFS_ILOCK_EXCL);
2694         xfs_trans_ijoin(tp, src_ip, XFS_ILOCK_EXCL);
2695         if (target_ip)
2696                 xfs_trans_ijoin(tp, target_ip, XFS_ILOCK_EXCL);
2697
2698         /*
2699          * If we are using project inheritance, we only allow renames
2700          * into our tree when the project IDs are the same; else the
2701          * tree quota mechanism would be circumvented.
2702          */
2703         if (unlikely((target_dp->i_d.di_flags & XFS_DIFLAG_PROJINHERIT) &&
2704                      (xfs_get_projid(target_dp) != xfs_get_projid(src_ip)))) {
2705                 error = XFS_ERROR(EXDEV);
2706                 goto error_return;
2707         }
2708
2709         /*
2710          * Set up the target.
2711          */
2712         if (target_ip == NULL) {
2713                 /*
2714                  * If there's no space reservation, check the entry will
2715                  * fit before actually inserting it.
2716                  */
2717                 error = xfs_dir_canenter(tp, target_dp, target_name, spaceres);
2718                 if (error)
2719                         goto error_return;
2720                 /*
2721                  * If target does not exist and the rename crosses
2722                  * directories, adjust the target directory link count
2723                  * to account for the ".." reference from the new entry.
2724                  */
2725                 error = xfs_dir_createname(tp, target_dp, target_name,
2726                                                 src_ip->i_ino, &first_block,
2727                                                 &free_list, spaceres);
2728                 if (error == ENOSPC)
2729                         goto error_return;
2730                 if (error)
2731                         goto abort_return;
2732
2733                 xfs_trans_ichgtime(tp, target_dp,
2734                                         XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
2735
2736                 if (new_parent && src_is_directory) {
2737                         error = xfs_bumplink(tp, target_dp);
2738                         if (error)
2739                                 goto abort_return;
2740                 }
2741         } else { /* target_ip != NULL */
2742                 /*
2743                  * If target exists and it's a directory, check that both
2744                  * target and source are directories and that target can be
2745                  * destroyed, or that neither is a directory.
2746                  */
2747                 if (S_ISDIR(target_ip->i_d.di_mode)) {
2748                         /*
2749                          * Make sure target dir is empty.
2750                          */
2751                         if (!(xfs_dir_isempty(target_ip)) ||
2752                             (target_ip->i_d.di_nlink > 2)) {
2753                                 error = XFS_ERROR(EEXIST);
2754                                 goto error_return;
2755                         }
2756                 }
2757
2758                 /*
2759                  * Link the source inode under the target name.
2760                  * If the source inode is a directory and we are moving
2761                  * it across directories, its ".." entry will be
2762                  * inconsistent until we replace that down below.
2763                  *
2764                  * In case there is already an entry with the same
2765                  * name at the destination directory, remove it first.
2766                  */
2767                 error = xfs_dir_replace(tp, target_dp, target_name,
2768                                         src_ip->i_ino,
2769                                         &first_block, &free_list, spaceres);
2770                 if (error)
2771                         goto abort_return;
2772
2773                 xfs_trans_ichgtime(tp, target_dp,
2774                                         XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
2775
2776                 /*
2777                  * Decrement the link count on the target since the target
2778                  * dir no longer points to it.
2779                  */
2780                 error = xfs_droplink(tp, target_ip);
2781                 if (error)
2782                         goto abort_return;
2783
2784                 if (src_is_directory) {
2785                         /*
2786                          * Drop the link from the old "." entry.
2787                          */
2788                         error = xfs_droplink(tp, target_ip);
2789                         if (error)
2790                                 goto abort_return;
2791                 }
2792         } /* target_ip != NULL */
2793
2794         /*
2795          * Remove the source.
2796          */
2797         if (new_parent && src_is_directory) {
2798                 /*
2799                  * Rewrite the ".." entry to point to the new
2800                  * directory.
2801                  */
2802                 error = xfs_dir_replace(tp, src_ip, &xfs_name_dotdot,
2803                                         target_dp->i_ino,
2804                                         &first_block, &free_list, spaceres);
2805                 ASSERT(error != EEXIST);
2806                 if (error)
2807                         goto abort_return;
2808         }
2809
2810         /*
2811          * We always want to hit the ctime on the source inode.
2812          *
2813          * This isn't strictly required by the standards since the source
2814          * inode isn't really being changed, but old unix file systems did
2815          * it and some incremental backup programs won't work without it.
2816          */
2817         xfs_trans_ichgtime(tp, src_ip, XFS_ICHGTIME_CHG);
2818         xfs_trans_log_inode(tp, src_ip, XFS_ILOG_CORE);
2819
2820         /*
2821          * Adjust the link count on src_dp.  This is necessary when
2822          * renaming a directory, either within one parent when
2823          * the target existed, or across two parent directories.
2824          */
2825         if (src_is_directory && (new_parent || target_ip != NULL)) {
2826
2827                 /*
2828                  * Decrement link count on src_directory since the
2829                  * entry that's moved no longer points to it.
2830                  */
2831                 error = xfs_droplink(tp, src_dp);
2832                 if (error)
2833                         goto abort_return;
2834         }
2835
2836         error = xfs_dir_removename(tp, src_dp, src_name, src_ip->i_ino,
2837                                         &first_block, &free_list, spaceres);
2838         if (error)
2839                 goto abort_return;
2840
2841         xfs_trans_ichgtime(tp, src_dp, XFS_ICHGTIME_MOD | XFS_ICHGTIME_CHG);
2842         xfs_trans_log_inode(tp, src_dp, XFS_ILOG_CORE);
2843         if (new_parent)
2844                 xfs_trans_log_inode(tp, target_dp, XFS_ILOG_CORE);
2845
2846         /*
2847          * If this is a synchronous mount, make sure that the
2848          * rename transaction goes to disk before returning to
2849          * the user.
2850          */
2851         if (mp->m_flags & (XFS_MOUNT_WSYNC|XFS_MOUNT_DIRSYNC)) {
2852                 xfs_trans_set_sync(tp);
2853         }
2854
2855         error = xfs_bmap_finish(&tp, &free_list, &committed);
2856         if (error) {
2857                 xfs_bmap_cancel(&free_list);
2858                 xfs_trans_cancel(tp, (XFS_TRANS_RELEASE_LOG_RES |
2859                                  XFS_TRANS_ABORT));
2860                 goto std_return;
2861         }
2862
2863         /*
2864          * trans_commit will unlock src_ip, target_ip & decrement
2865          * the vnode references.
2866          */
2867         return xfs_trans_commit(tp, XFS_TRANS_RELEASE_LOG_RES);
2868
2869  abort_return:
2870         cancel_flags |= XFS_TRANS_ABORT;
2871  error_return:
2872         xfs_bmap_cancel(&free_list);
2873         xfs_trans_cancel(tp, cancel_flags);
2874  std_return:
2875         return error;
2876 }
2877
2878 STATIC int
2879 xfs_iflush_cluster(
2880         xfs_inode_t     *ip,
2881         xfs_buf_t       *bp)
2882 {
2883         xfs_mount_t             *mp = ip->i_mount;
2884         struct xfs_perag        *pag;
2885         unsigned long           first_index, mask;
2886         unsigned long           inodes_per_cluster;
2887         int                     ilist_size;
2888         xfs_inode_t             **ilist;
2889         xfs_inode_t             *iq;
2890         int                     nr_found;
2891         int                     clcount = 0;
2892         int                     bufwasdelwri;
2893         int                     i;
2894
2895         pag = xfs_perag_get(mp, XFS_INO_TO_AGNO(mp, ip->i_ino));
2896
2897         inodes_per_cluster = XFS_INODE_CLUSTER_SIZE(mp) >> mp->m_sb.sb_inodelog;
2898         ilist_size = inodes_per_cluster * sizeof(xfs_inode_t *);
2899         ilist = kmem_alloc(ilist_size, KM_MAYFAIL|KM_NOFS);
2900         if (!ilist)
2901                 goto out_put;
2902
2903         mask = ~(((XFS_INODE_CLUSTER_SIZE(mp) >> mp->m_sb.sb_inodelog)) - 1);
2904         first_index = XFS_INO_TO_AGINO(mp, ip->i_ino) & mask;
2905         rcu_read_lock();
2906         /* really need a gang lookup range call here */
2907         nr_found = radix_tree_gang_lookup(&pag->pag_ici_root, (void**)ilist,
2908                                         first_index, inodes_per_cluster);
2909         if (nr_found == 0)
2910                 goto out_free;
2911
2912         for (i = 0; i < nr_found; i++) {
2913                 iq = ilist[i];
2914                 if (iq == ip)
2915                         continue;
2916
2917                 /*
2918                  * because this is an RCU protected lookup, we could find a
2919                  * recently freed or even reallocated inode during the lookup.
2920                  * We need to check under the i_flags_lock for a valid inode
2921                  * here. Skip it if it is not valid or the wrong inode.
2922                  */
2923                 spin_lock(&ip->i_flags_lock);
2924                 if (!ip->i_ino ||
2925                     (XFS_INO_TO_AGINO(mp, iq->i_ino) & mask) != first_index) {
2926                         spin_unlock(&ip->i_flags_lock);
2927                         continue;
2928                 }
2929                 spin_unlock(&ip->i_flags_lock);
2930
2931                 /*
2932                  * Do an un-protected check to see if the inode is dirty and
2933                  * is a candidate for flushing.  These checks will be repeated
2934                  * later after the appropriate locks are acquired.
2935                  */
2936                 if (xfs_inode_clean(iq) && xfs_ipincount(iq) == 0)
2937                         continue;
2938
2939                 /*
2940                  * Try to get locks.  If any are unavailable or it is pinned,
2941                  * then this inode cannot be flushed and is skipped.
2942                  */
2943
2944                 if (!xfs_ilock_nowait(iq, XFS_ILOCK_SHARED))
2945                         continue;
2946                 if (!xfs_iflock_nowait(iq)) {
2947                         xfs_iunlock(iq, XFS_ILOCK_SHARED);
2948                         continue;
2949                 }
2950                 if (xfs_ipincount(iq)) {
2951                         xfs_ifunlock(iq);
2952                         xfs_iunlock(iq, XFS_ILOCK_SHARED);
2953                         continue;
2954                 }
2955
2956                 /*
2957                  * arriving here means that this inode can be flushed.  First
2958                  * re-check that it's dirty before flushing.
2959                  */
2960                 if (!xfs_inode_clean(iq)) {
2961                         int     error;
2962                         error = xfs_iflush_int(iq, bp);
2963                         if (error) {
2964                                 xfs_iunlock(iq, XFS_ILOCK_SHARED);
2965                                 goto cluster_corrupt_out;
2966                         }
2967                         clcount++;
2968                 } else {
2969                         xfs_ifunlock(iq);
2970                 }
2971                 xfs_iunlock(iq, XFS_ILOCK_SHARED);
2972         }
2973
2974         if (clcount) {
2975                 XFS_STATS_INC(xs_icluster_flushcnt);
2976                 XFS_STATS_ADD(xs_icluster_flushinode, clcount);
2977         }
2978
2979 out_free:
2980         rcu_read_unlock();
2981         kmem_free(ilist);
2982 out_put:
2983         xfs_perag_put(pag);
2984         return 0;
2985
2986
2987 cluster_corrupt_out:
2988         /*
2989          * Corruption detected in the clustering loop.  Invalidate the
2990          * inode buffer and shut down the filesystem.
2991          */
2992         rcu_read_unlock();
2993         /*
2994          * Clean up the buffer.  If it was delwri, just release it --
2995          * brelse can handle it with no problems.  If not, shut down the
2996          * filesystem before releasing the buffer.
2997          */
2998         bufwasdelwri = (bp->b_flags & _XBF_DELWRI_Q);
2999         if (bufwasdelwri)
3000                 xfs_buf_relse(bp);
3001
3002         xfs_force_shutdown(mp, SHUTDOWN_CORRUPT_INCORE);
3003
3004         if (!bufwasdelwri) {
3005                 /*
3006                  * Just like incore_relse: if we have b_iodone functions,
3007                  * mark the buffer as an error and call them.  Otherwise
3008                  * mark it as stale and brelse.
3009                  */
3010                 if (bp->b_iodone) {
3011                         XFS_BUF_UNDONE(bp);
3012                         xfs_buf_stale(bp);
3013                         xfs_buf_ioerror(bp, EIO);
3014                         xfs_buf_ioend(bp, 0);
3015                 } else {
3016                         xfs_buf_stale(bp);
3017                         xfs_buf_relse(bp);
3018                 }
3019         }
3020
3021         /*
3022          * Unlocks the flush lock
3023          */
3024         xfs_iflush_abort(iq, false);
3025         kmem_free(ilist);
3026         xfs_perag_put(pag);
3027         return XFS_ERROR(EFSCORRUPTED);
3028 }
3029
3030 /*
3031  * Flush dirty inode metadata into the backing buffer.
3032  *
3033  * The caller must have the inode lock and the inode flush lock held.  The
3034  * inode lock will still be held upon return to the caller, and the inode
3035  * flush lock will be released after the inode has reached the disk.
3036  *
3037  * The caller must write out the buffer returned in *bpp and release it.
3038  */
3039 int
3040 xfs_iflush(
3041         struct xfs_inode        *ip,
3042         struct xfs_buf          **bpp)
3043 {
3044         struct xfs_mount        *mp = ip->i_mount;
3045         struct xfs_buf          *bp;
3046         struct xfs_dinode       *dip;
3047         int                     error;
3048
3049         XFS_STATS_INC(xs_iflush_count);
3050
3051         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL|XFS_ILOCK_SHARED));
3052         ASSERT(xfs_isiflocked(ip));
3053         ASSERT(ip->i_d.di_format != XFS_DINODE_FMT_BTREE ||
3054                ip->i_d.di_nextents > XFS_IFORK_MAXEXT(ip, XFS_DATA_FORK));
3055
3056         *bpp = NULL;
3057
3058         xfs_iunpin_wait(ip);
3059
3060         /*
3061          * For stale inodes we cannot rely on the backing buffer remaining
3062          * stale in cache for the remaining life of the stale inode and so
3063          * xfs_imap_to_bp() below may give us a buffer that no longer contains
3064          * inodes below. We have to check this after ensuring the inode is
3065          * unpinned so that it is safe to reclaim the stale inode after the
3066          * flush call.
3067          */
3068         if (xfs_iflags_test(ip, XFS_ISTALE)) {
3069                 xfs_ifunlock(ip);
3070                 return 0;
3071         }
3072
3073         /*
3074          * This may have been unpinned because the filesystem is shutting
3075          * down forcibly. If that's the case we must not write this inode
3076          * to disk, because the log record didn't make it to disk.
3077          *
3078          * We also have to remove the log item from the AIL in this case,
3079          * as we wait for an empty AIL as part of the unmount process.
3080          */
3081         if (XFS_FORCED_SHUTDOWN(mp)) {
3082                 error = XFS_ERROR(EIO);
3083                 goto abort_out;
3084         }
3085
3086         /*
3087          * Get the buffer containing the on-disk inode.
3088          */
3089         error = xfs_imap_to_bp(mp, NULL, &ip->i_imap, &dip, &bp, XBF_TRYLOCK,
3090                                0);
3091         if (error || !bp) {
3092                 xfs_ifunlock(ip);
3093                 return error;
3094         }
3095
3096         /*
3097          * First flush out the inode that xfs_iflush was called with.
3098          */
3099         error = xfs_iflush_int(ip, bp);
3100         if (error)
3101                 goto corrupt_out;
3102
3103         /*
3104          * If the buffer is pinned then push on the log now so we won't
3105          * get stuck waiting in the write for too long.
3106          */
3107         if (xfs_buf_ispinned(bp))
3108                 xfs_log_force(mp, 0);
3109
3110         /*
3111          * inode clustering:
3112          * see if other inodes can be gathered into this write
3113          */
3114         error = xfs_iflush_cluster(ip, bp);
3115         if (error)
3116                 goto cluster_corrupt_out;
3117
3118         *bpp = bp;
3119         return 0;
3120
3121 corrupt_out:
3122         xfs_buf_relse(bp);
3123         xfs_force_shutdown(mp, SHUTDOWN_CORRUPT_INCORE);
3124 cluster_corrupt_out:
3125         error = XFS_ERROR(EFSCORRUPTED);
3126 abort_out:
3127         /*
3128          * Unlocks the flush lock
3129          */
3130         xfs_iflush_abort(ip, false);
3131         return error;
3132 }
3133
3134 STATIC int
3135 xfs_iflush_int(
3136         struct xfs_inode        *ip,
3137         struct xfs_buf          *bp)
3138 {
3139         struct xfs_inode_log_item *iip = ip->i_itemp;
3140         struct xfs_dinode       *dip;
3141         struct xfs_mount        *mp = ip->i_mount;
3142
3143         ASSERT(xfs_isilocked(ip, XFS_ILOCK_EXCL|XFS_ILOCK_SHARED));
3144         ASSERT(xfs_isiflocked(ip));
3145         ASSERT(ip->i_d.di_format != XFS_DINODE_FMT_BTREE ||
3146                ip->i_d.di_nextents > XFS_IFORK_MAXEXT(ip, XFS_DATA_FORK));
3147         ASSERT(iip != NULL && iip->ili_fields != 0);
3148
3149         /* set *dip = inode's place in the buffer */
3150         dip = (xfs_dinode_t *)xfs_buf_offset(bp, ip->i_imap.im_boffset);
3151
3152         if (XFS_TEST_ERROR(dip->di_magic != cpu_to_be16(XFS_DINODE_MAGIC),
3153                                mp, XFS_ERRTAG_IFLUSH_1, XFS_RANDOM_IFLUSH_1)) {
3154                 xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3155                         "%s: Bad inode %Lu magic number 0x%x, ptr 0x%p",
3156                         __func__, ip->i_ino, be16_to_cpu(dip->di_magic), dip);
3157                 goto corrupt_out;
3158         }
3159         if (XFS_TEST_ERROR(ip->i_d.di_magic != XFS_DINODE_MAGIC,
3160                                 mp, XFS_ERRTAG_IFLUSH_2, XFS_RANDOM_IFLUSH_2)) {
3161                 xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3162                         "%s: Bad inode %Lu, ptr 0x%p, magic number 0x%x",
3163                         __func__, ip->i_ino, ip, ip->i_d.di_magic);
3164                 goto corrupt_out;
3165         }
3166         if (S_ISREG(ip->i_d.di_mode)) {
3167                 if (XFS_TEST_ERROR(
3168                     (ip->i_d.di_format != XFS_DINODE_FMT_EXTENTS) &&
3169                     (ip->i_d.di_format != XFS_DINODE_FMT_BTREE),
3170                     mp, XFS_ERRTAG_IFLUSH_3, XFS_RANDOM_IFLUSH_3)) {
3171                         xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3172                                 "%s: Bad regular inode %Lu, ptr 0x%p",
3173                                 __func__, ip->i_ino, ip);
3174                         goto corrupt_out;
3175                 }
3176         } else if (S_ISDIR(ip->i_d.di_mode)) {
3177                 if (XFS_TEST_ERROR(
3178                     (ip->i_d.di_format != XFS_DINODE_FMT_EXTENTS) &&
3179                     (ip->i_d.di_format != XFS_DINODE_FMT_BTREE) &&
3180                     (ip->i_d.di_format != XFS_DINODE_FMT_LOCAL),
3181                     mp, XFS_ERRTAG_IFLUSH_4, XFS_RANDOM_IFLUSH_4)) {
3182                         xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3183                                 "%s: Bad directory inode %Lu, ptr 0x%p",
3184                                 __func__, ip->i_ino, ip);
3185                         goto corrupt_out;
3186                 }
3187         }
3188         if (XFS_TEST_ERROR(ip->i_d.di_nextents + ip->i_d.di_anextents >
3189                                 ip->i_d.di_nblocks, mp, XFS_ERRTAG_IFLUSH_5,
3190                                 XFS_RANDOM_IFLUSH_5)) {
3191                 xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3192                         "%s: detected corrupt incore inode %Lu, "
3193                         "total extents = %d, nblocks = %Ld, ptr 0x%p",
3194                         __func__, ip->i_ino,
3195                         ip->i_d.di_nextents + ip->i_d.di_anextents,
3196                         ip->i_d.di_nblocks, ip);
3197                 goto corrupt_out;
3198         }
3199         if (XFS_TEST_ERROR(ip->i_d.di_forkoff > mp->m_sb.sb_inodesize,
3200                                 mp, XFS_ERRTAG_IFLUSH_6, XFS_RANDOM_IFLUSH_6)) {
3201                 xfs_alert_tag(mp, XFS_PTAG_IFLUSH,
3202                         "%s: bad inode %Lu, forkoff 0x%x, ptr 0x%p",
3203                         __func__, ip->i_ino, ip->i_d.di_forkoff, ip);
3204                 goto corrupt_out;
3205         }
3206
3207         /*
3208          * Inode item log recovery for v1/v2 inodes are dependent on the
3209          * di_flushiter count for correct sequencing. We bump the flush
3210          * iteration count so we can detect flushes which postdate a log record
3211          * during recovery. This is redundant as we now log every change and
3212          * hence this can't happen but we need to still do it to ensure
3213          * backwards compatibility with old kernels that predate logging all
3214          * inode changes.
3215          */
3216         if (ip->i_d.di_version < 3)
3217                 ip->i_d.di_flushiter++;
3218
3219         /*
3220          * Copy the dirty parts of the inode into the on-disk
3221          * inode.  We always copy out the core of the inode,
3222          * because if the inode is dirty at all the core must
3223          * be.
3224          */
3225         xfs_dinode_to_disk(dip, &ip->i_d);
3226
3227         /* Wrap, we never let the log put out DI_MAX_FLUSH */
3228         if (ip->i_d.di_flushiter == DI_MAX_FLUSH)
3229                 ip->i_d.di_flushiter = 0;
3230
3231         /*
3232          * If this is really an old format inode and the superblock version
3233          * has not been updated to support only new format inodes, then
3234          * convert back to the old inode format.  If the superblock version
3235          * has been updated, then make the conversion permanent.
3236          */
3237         ASSERT(ip->i_d.di_version == 1 || xfs_sb_version_hasnlink(&mp->m_sb));
3238         if (ip->i_d.di_version == 1) {
3239                 if (!xfs_sb_version_hasnlink(&mp->m_sb)) {
3240                         /*
3241                          * Convert it back.
3242                          */
3243                         ASSERT(ip->i_d.di_nlink <= XFS_MAXLINK_1);
3244                         dip->di_onlink = cpu_to_be16(ip->i_d.di_nlink);
3245                 } else {
3246                         /*
3247                          * The superblock version has already been bumped,
3248                          * so just make the conversion to the new inode
3249                          * format permanent.
3250                          */
3251                         ip->i_d.di_version = 2;
3252                         dip->di_version = 2;
3253                         ip->i_d.di_onlink = 0;
3254                         dip->di_onlink = 0;
3255                         memset(&(ip->i_d.di_pad[0]), 0, sizeof(ip->i_d.di_pad));
3256                         memset(&(dip->di_pad[0]), 0,
3257                               sizeof(dip->di_pad));
3258                         ASSERT(xfs_get_projid(ip) == 0);
3259                 }
3260         }
3261
3262         xfs_iflush_fork(ip, dip, iip, XFS_DATA_FORK, bp);
3263         if (XFS_IFORK_Q(ip))
3264                 xfs_iflush_fork(ip, dip, iip, XFS_ATTR_FORK, bp);
3265         xfs_inobp_check(mp, bp);
3266
3267         /*
3268          * We've recorded everything logged in the inode, so we'd like to clear
3269          * the ili_fields bits so we don't log and flush things unnecessarily.
3270          * However, we can't stop logging all this information until the data
3271          * we've copied into the disk buffer is written to disk.  If we did we
3272          * might overwrite the copy of the inode in the log with all the data
3273          * after re-logging only part of it, and in the face of a crash we
3274          * wouldn't have all the data we need to recover.
3275          *
3276          * What we do is move the bits to the ili_last_fields field.  When
3277          * logging the inode, these bits are moved back to the ili_fields field.
3278          * In the xfs_iflush_done() routine we clear ili_last_fields, since we
3279          * know that the information those bits represent is permanently on
3280          * disk.  As long as the flush completes before the inode is logged
3281          * again, then both ili_fields and ili_last_fields will be cleared.
3282          *
3283          * We can play with the ili_fields bits here, because the inode lock
3284          * must be held exclusively in order to set bits there and the flush
3285          * lock protects the ili_last_fields bits.  Set ili_logged so the flush
3286          * done routine can tell whether or not to look in the AIL.  Also, store
3287          * the current LSN of the inode so that we can tell whether the item has
3288          * moved in the AIL from xfs_iflush_done().  In order to read the lsn we
3289          * need the AIL lock, because it is a 64 bit value that cannot be read
3290          * atomically.
3291          */
3292         iip->ili_last_fields = iip->ili_fields;
3293         iip->ili_fields = 0;
3294         iip->ili_logged = 1;
3295
3296         xfs_trans_ail_copy_lsn(mp->m_ail, &iip->ili_flush_lsn,
3297                                 &iip->ili_item.li_lsn);
3298
3299         /*
3300          * Attach the function xfs_iflush_done to the inode's
3301          * buffer.  This will remove the inode from the AIL
3302          * and unlock the inode's flush lock when the inode is
3303          * completely written to disk.
3304          */
3305         xfs_buf_attach_iodone(bp, xfs_iflush_done, &iip->ili_item);
3306
3307         /* update the lsn in the on disk inode if required */
3308         if (ip->i_d.di_version == 3)
3309                 dip->di_lsn = cpu_to_be64(iip->ili_item.li_lsn);
3310
3311         /* generate the checksum. */
3312         xfs_dinode_calc_crc(mp, dip);
3313
3314         ASSERT(bp->b_fspriv != NULL);
3315         ASSERT(bp->b_iodone != NULL);
3316         return 0;
3317
3318 corrupt_out:
3319         return XFS_ERROR(EFSCORRUPTED);
3320 }